Qwen2.5-1M – Qwen mit Unterstützung für bis zu 1 Million Token selbst bereitstellen

(qwenlm.github.io)

4 Punkte von GN⁺ 2025-01-29 | 3 Kommentare | Auf WhatsApp teilen

Qwen2.5-1M ist ein leistungsstarkes Open-Source-Modell mit einer Kontextlänge von bis zu 1M Token und verbessert Qwen2.5-Turbo, das vor 2 Monaten veröffentlicht wurde
Zwei Checkpoints veröffentlicht: Qwen2.5-7B-Instruct-1M und Qwen2.5-14B-Instruct-1M
- Erstes Qwen-Modell mit Unterstützung für einen Kontext von 1M Token
Inferenz-Framework veröffentlicht: Bereitstellung eines auf vLLM basierenden optimierten Inferenz-Frameworks. Durch die Integration von Sparse-Attention-Techniken werden Eingaben mit 1M Token 3- bis 7-mal schneller verarbeitet
Technischer Bericht veröffentlicht: Detaillierter technischer Bericht zu Design des Trainings- und Inferenz-Frameworks sowie zu den experimentellen Ergebnissen

Modellleistung

Aufgaben mit langem Kontext

Passkey-Retrieval-Bewertung: Informationen werden aus Dokumenten mit 1M Token präzise extrahiert. Das Qwen2.5-7B-Modell zeigt geringe Fehler, Qwen2.5-14B behält eine hohe Genauigkeit bei
Bewertung komplexer Aufgaben:
- In RULER, LV-Eval, LongbenchChat usw. zeigen die Qwen2.5-1M-Modelle eine bessere Leistung als die 128K-Modelle
- Insbesondere Qwen2.5-14B zeigt insgesamt eine hohe Leistung, selbst im Vergleich mit GPT-4o-mini

Aufgaben mit kurzem Kontext

Auch bei Aufgaben mit kurzem Kontext behalten die Qwen2.5-1M-Modelle die gleiche Leistung wie die 128K-Versionen bei
Zeigt bei Kurzkontext-Aufgaben eine ähnliche Leistung wie GPT-4o-mini, unterstützt dabei aber einen bis zu 8-mal längeren Kontext

Zentrale Technologien

Training für langen Kontext

Die Kontextlänge wird schrittweise von 4K auf 256K erweitert
RoPE-basierte Anpassung, stufenweises Training und Reinforcement Learning werden eingesetzt
Die Technik Dual Chunk Attention (DCA) unterstützt die Skalierung auf einen Kontext von 1M Token
DCA hält auch ohne Training bei langen Texten eine hohe Genauigkeit aufrecht

Sparse Attention

Einführung von auf MInference basierender Sparse Attention
Chunked Prefill integriert: Reduziert den Speicherverbrauch um 96,7 %
Length Extrapolation integriert: In Kombination mit DCA werden Genauigkeit und Inferenz-Effizienz verbessert
Sparsity Refinement on Long Sequences: Einführung einer optimierten Sparsifizierungs-Konfiguration, um Leistungsverluste bei langen Texten zu minimieren
Dadurch steigt die Inferenzgeschwindigkeit bei einer Länge von 1M Token um das 3,2- bis 6,7-Fache

Qwen2.5-1M in einer lokalen Umgebung bereitstellen

Systemanforderungen

CUDA 12.1/12.3, Python 3.9–3.12
VRAM-Anforderungen:
- Qwen2.5-7B: mindestens 120 GB
- Qwen2.5-14B: mindestens 320 GB

Installation und Ausführung

vLLM-Repository klonen und installieren
OpenAI-kompatiblen API-Dienst starten
Interaktion mit dem Modell per Curl oder Python möglich

Ausblick

Forschung zu effizienterem Training, Modellarchitekturen und Inferenzmethoden läuft
Entwicklung mit dem Ziel hervorragender Leistung sowohl bei kurzem als auch bei langem Kontext
Geplant ist, die praktische Nutzbarkeit von Modellen für langen Kontext weiter auszubauen

3 Kommentare

yangeok 2025-01-30

Läuft das lokal wohl auch gut auf Koreanisch?

xguru 2025-01-29

2023-08-03 Alibaba veröffentlicht das Open-Source-AI-Modell QWEN
2024-04-25 Qwen1.5-110B: das erste 100B+-Modell der Open-Source-LLM-Serie Qwen1.5 von Alibaba
2024-06-07 Alibaba veröffentlicht das Modell Qwen 2
2024-09-19 Qwen2.5 – Veröffentlichung mehrerer Foundation-Modelle
2024-11-28 QwQ – Alibabas Inferenz-LLM, ähnlich wie ChatGPT o1
2024-12-24 Erfahrungsbericht zur Nutzung von QvQ, Qwens neuem visuellen Reasoning-Modell

GN⁺ 2025-01-29

Hacker-News-Kommentare

Bei AI-Coding sind sehr große Kontextfenster in der Praxis nicht wirklich nützlich. Wenn man etwa mehr als 25–30k Tokens eingibt, wird das Modell verwirrt.
- Dieses Problem tritt bei gpt-4o, Sonnet, DeepSeek usw. auf.
- Viele Nutzer berichten von diesem Problem und haben dafür eigene Hilfeseiten erstellt.
- Ein großer Kontext kann für bestimmte Aufgaben mit viel „geringwertigem“ Kontext nützlich sein, beim Coding kann er jedoch Probleme verursachen.
Ollama hat den Parameter num_ctx, mit dem sich die Länge des Kontextfensters steuern lässt; der Standardwert ist 2048.
- Es gibt einen Tipp, es unter macOS mit MLX auszuführen.
Diskussion über den neuesten Stand der Technik (SOTA) beim speicherzentrierten Computing.
- Möglicherweise braucht es ein neues Paradigma, um die AI-Speicherkosten zu senken.
- Eventuell gibt es eine Möglichkeit, DRAM mit optischen Interconnects zu verbinden.
- Es wird gefragt, ob es etwas mit Funktionen ähnlich zu Transformern gibt, das nicht von Sequenzen abhängt.
Es soll geprüft werden, ob das erste lokal ausführbare Modell mit einer Kontextlänge von über 128K direkt auf 1M gestiegen ist.
Man würde gern Meinungen von Leuten hören, die auf dem Mac erfolgreich lange Prompts ausgeführt haben.
Im November wurde ein nur per API verfügbares Modell mit einem 1M-Kontextfenster veröffentlicht.
Es gibt Gerüchte über die native Kontextlänge, aber unklar ist, ob es tatsächlich 1M Kontextlänge sind.
- Modelle wie llama3 8b sollen einen größeren Kontext haben, in Wirklichkeit ist das aber nicht so.
- Mit 16gb VRAM ist es schwer, über 8k hinauszukommen.
Alle machen die Kontextfenster größer, aber man sollte auch über die Ausgabe nachdenken.
- Man möchte Tausende Zeilen Code erzeugen und fragt sich, ob es dafür Tipps gibt.

Qwen2.5-1M – Qwen mit Unterstützung für bis zu 1 Million Token selbst bereitstellen

Modellleistung

Aufgaben mit langem Kontext

Aufgaben mit kurzem Kontext

Zentrale Technologien

Training für langen Kontext

Sparse Attention

Qwen2.5-1M in einer lokalen Umgebung bereitstellen

Systemanforderungen

Installation und Ausführung

Ausblick

Verwandte Beiträge

3 Kommentare

Hacker-News-Kommentare