- Qwen2.5-1M ist ein leistungsstarkes Open-Source-Modell mit einer Kontextlänge von bis zu 1M Token und verbessert Qwen2.5-Turbo, das vor 2 Monaten veröffentlicht wurde
- Zwei Checkpoints veröffentlicht: Qwen2.5-7B-Instruct-1M und Qwen2.5-14B-Instruct-1M
- Erstes Qwen-Modell mit Unterstützung für einen Kontext von 1M Token
- Inferenz-Framework veröffentlicht: Bereitstellung eines auf vLLM basierenden optimierten Inferenz-Frameworks. Durch die Integration von Sparse-Attention-Techniken werden Eingaben mit 1M Token 3- bis 7-mal schneller verarbeitet
- Technischer Bericht veröffentlicht: Detaillierter technischer Bericht zu Design des Trainings- und Inferenz-Frameworks sowie zu den experimentellen Ergebnissen
Modellleistung
Aufgaben mit langem Kontext
- Passkey-Retrieval-Bewertung: Informationen werden aus Dokumenten mit 1M Token präzise extrahiert. Das Qwen2.5-7B-Modell zeigt geringe Fehler, Qwen2.5-14B behält eine hohe Genauigkeit bei
- Bewertung komplexer Aufgaben:
- In RULER, LV-Eval, LongbenchChat usw. zeigen die Qwen2.5-1M-Modelle eine bessere Leistung als die 128K-Modelle
- Insbesondere Qwen2.5-14B zeigt insgesamt eine hohe Leistung, selbst im Vergleich mit GPT-4o-mini
Aufgaben mit kurzem Kontext
- Auch bei Aufgaben mit kurzem Kontext behalten die Qwen2.5-1M-Modelle die gleiche Leistung wie die 128K-Versionen bei
- Zeigt bei Kurzkontext-Aufgaben eine ähnliche Leistung wie GPT-4o-mini, unterstützt dabei aber einen bis zu 8-mal längeren Kontext
Zentrale Technologien
Training für langen Kontext
- Die Kontextlänge wird schrittweise von 4K auf 256K erweitert
- RoPE-basierte Anpassung, stufenweises Training und Reinforcement Learning werden eingesetzt
- Die Technik Dual Chunk Attention (DCA) unterstützt die Skalierung auf einen Kontext von 1M Token
- DCA hält auch ohne Training bei langen Texten eine hohe Genauigkeit aufrecht
Sparse Attention
- Einführung von auf MInference basierender Sparse Attention
- Chunked Prefill integriert: Reduziert den Speicherverbrauch um 96,7 %
- Length Extrapolation integriert: In Kombination mit DCA werden Genauigkeit und Inferenz-Effizienz verbessert
- Sparsity Refinement on Long Sequences: Einführung einer optimierten Sparsifizierungs-Konfiguration, um Leistungsverluste bei langen Texten zu minimieren
- Dadurch steigt die Inferenzgeschwindigkeit bei einer Länge von 1M Token um das 3,2- bis 6,7-Fache
Qwen2.5-1M in einer lokalen Umgebung bereitstellen
Systemanforderungen
- CUDA 12.1/12.3, Python 3.9–3.12
- VRAM-Anforderungen:
- Qwen2.5-7B: mindestens 120 GB
- Qwen2.5-14B: mindestens 320 GB
Installation und Ausführung
- vLLM-Repository klonen und installieren
- OpenAI-kompatiblen API-Dienst starten
- Interaktion mit dem Modell per Curl oder Python möglich
Ausblick
- Forschung zu effizienterem Training, Modellarchitekturen und Inferenzmethoden läuft
- Entwicklung mit dem Ziel hervorragender Leistung sowohl bei kurzem als auch bei langem Kontext
- Geplant ist, die praktische Nutzbarkeit von Modellen für langen Kontext weiter auszubauen
3 Kommentare
Läuft das lokal wohl auch gut auf Koreanisch?
2023-08-03 Alibaba veröffentlicht das Open-Source-AI-Modell QWEN
2024-04-25 Qwen1.5-110B: das erste 100B+-Modell der Open-Source-LLM-Serie Qwen1.5 von Alibaba
2024-06-07 Alibaba veröffentlicht das Modell Qwen 2
2024-09-19 Qwen2.5 – Veröffentlichung mehrerer Foundation-Modelle
2024-11-28 QwQ – Alibabas Inferenz-LLM, ähnlich wie ChatGPT o1
2024-12-24 Erfahrungsbericht zur Nutzung von QvQ, Qwens neuem visuellen Reasoning-Modell
Hacker-News-Kommentare
Bei AI-Coding sind sehr große Kontextfenster in der Praxis nicht wirklich nützlich. Wenn man etwa mehr als 25–30k Tokens eingibt, wird das Modell verwirrt.
Ollama hat den Parameter
num_ctx, mit dem sich die Länge des Kontextfensters steuern lässt; der Standardwert ist 2048.Diskussion über den neuesten Stand der Technik (SOTA) beim speicherzentrierten Computing.
Es soll geprüft werden, ob das erste lokal ausführbare Modell mit einer Kontextlänge von über 128K direkt auf 1M gestiegen ist.
Man würde gern Meinungen von Leuten hören, die auf dem Mac erfolgreich lange Prompts ausgeführt haben.
Im November wurde ein nur per API verfügbares Modell mit einem 1M-Kontextfenster veröffentlicht.
Es gibt Gerüchte über die native Kontextlänge, aber unklar ist, ob es tatsächlich 1M Kontextlänge sind.
Alle machen die Kontextfenster größer, aber man sollte auch über die Ausgabe nachdenken.