4 Punkte von GN⁺ 2025-01-29 | 3 Kommentare | Auf WhatsApp teilen
  • Qwen2.5-1M ist ein leistungsstarkes Open-Source-Modell mit einer Kontextlänge von bis zu 1M Token und verbessert Qwen2.5-Turbo, das vor 2 Monaten veröffentlicht wurde
  • Zwei Checkpoints veröffentlicht: Qwen2.5-7B-Instruct-1M und Qwen2.5-14B-Instruct-1M
    • Erstes Qwen-Modell mit Unterstützung für einen Kontext von 1M Token
  • Inferenz-Framework veröffentlicht: Bereitstellung eines auf vLLM basierenden optimierten Inferenz-Frameworks. Durch die Integration von Sparse-Attention-Techniken werden Eingaben mit 1M Token 3- bis 7-mal schneller verarbeitet
  • Technischer Bericht veröffentlicht: Detaillierter technischer Bericht zu Design des Trainings- und Inferenz-Frameworks sowie zu den experimentellen Ergebnissen

Modellleistung

Aufgaben mit langem Kontext

  • Passkey-Retrieval-Bewertung: Informationen werden aus Dokumenten mit 1M Token präzise extrahiert. Das Qwen2.5-7B-Modell zeigt geringe Fehler, Qwen2.5-14B behält eine hohe Genauigkeit bei
  • Bewertung komplexer Aufgaben:
    • In RULER, LV-Eval, LongbenchChat usw. zeigen die Qwen2.5-1M-Modelle eine bessere Leistung als die 128K-Modelle
    • Insbesondere Qwen2.5-14B zeigt insgesamt eine hohe Leistung, selbst im Vergleich mit GPT-4o-mini

Aufgaben mit kurzem Kontext

  • Auch bei Aufgaben mit kurzem Kontext behalten die Qwen2.5-1M-Modelle die gleiche Leistung wie die 128K-Versionen bei
  • Zeigt bei Kurzkontext-Aufgaben eine ähnliche Leistung wie GPT-4o-mini, unterstützt dabei aber einen bis zu 8-mal längeren Kontext

Zentrale Technologien

Training für langen Kontext

  • Die Kontextlänge wird schrittweise von 4K auf 256K erweitert
  • RoPE-basierte Anpassung, stufenweises Training und Reinforcement Learning werden eingesetzt
  • Die Technik Dual Chunk Attention (DCA) unterstützt die Skalierung auf einen Kontext von 1M Token
  • DCA hält auch ohne Training bei langen Texten eine hohe Genauigkeit aufrecht

Sparse Attention

  • Einführung von auf MInference basierender Sparse Attention
  • Chunked Prefill integriert: Reduziert den Speicherverbrauch um 96,7 %
  • Length Extrapolation integriert: In Kombination mit DCA werden Genauigkeit und Inferenz-Effizienz verbessert
  • Sparsity Refinement on Long Sequences: Einführung einer optimierten Sparsifizierungs-Konfiguration, um Leistungsverluste bei langen Texten zu minimieren
  • Dadurch steigt die Inferenzgeschwindigkeit bei einer Länge von 1M Token um das 3,2- bis 6,7-Fache

Qwen2.5-1M in einer lokalen Umgebung bereitstellen

Systemanforderungen

  • CUDA 12.1/12.3, Python 3.9–3.12
  • VRAM-Anforderungen:
    • Qwen2.5-7B: mindestens 120 GB
    • Qwen2.5-14B: mindestens 320 GB

Installation und Ausführung

  1. vLLM-Repository klonen und installieren
  2. OpenAI-kompatiblen API-Dienst starten
  3. Interaktion mit dem Modell per Curl oder Python möglich

Ausblick

  • Forschung zu effizienterem Training, Modellarchitekturen und Inferenzmethoden läuft
  • Entwicklung mit dem Ziel hervorragender Leistung sowohl bei kurzem als auch bei langem Kontext
  • Geplant ist, die praktische Nutzbarkeit von Modellen für langen Kontext weiter auszubauen

3 Kommentare

 
yangeok 2025-01-30

Läuft das lokal wohl auch gut auf Koreanisch?

 
GN⁺ 2025-01-29
Hacker-News-Kommentare
  • Bei AI-Coding sind sehr große Kontextfenster in der Praxis nicht wirklich nützlich. Wenn man etwa mehr als 25–30k Tokens eingibt, wird das Modell verwirrt.

    • Dieses Problem tritt bei gpt-4o, Sonnet, DeepSeek usw. auf.
    • Viele Nutzer berichten von diesem Problem und haben dafür eigene Hilfeseiten erstellt.
    • Ein großer Kontext kann für bestimmte Aufgaben mit viel „geringwertigem“ Kontext nützlich sein, beim Coding kann er jedoch Probleme verursachen.
  • Ollama hat den Parameter num_ctx, mit dem sich die Länge des Kontextfensters steuern lässt; der Standardwert ist 2048.

    • Es gibt einen Tipp, es unter macOS mit MLX auszuführen.
  • Diskussion über den neuesten Stand der Technik (SOTA) beim speicherzentrierten Computing.

    • Möglicherweise braucht es ein neues Paradigma, um die AI-Speicherkosten zu senken.
    • Eventuell gibt es eine Möglichkeit, DRAM mit optischen Interconnects zu verbinden.
    • Es wird gefragt, ob es etwas mit Funktionen ähnlich zu Transformern gibt, das nicht von Sequenzen abhängt.
  • Es soll geprüft werden, ob das erste lokal ausführbare Modell mit einer Kontextlänge von über 128K direkt auf 1M gestiegen ist.

  • Man würde gern Meinungen von Leuten hören, die auf dem Mac erfolgreich lange Prompts ausgeführt haben.

  • Im November wurde ein nur per API verfügbares Modell mit einem 1M-Kontextfenster veröffentlicht.

  • Es gibt Gerüchte über die native Kontextlänge, aber unklar ist, ob es tatsächlich 1M Kontextlänge sind.

    • Modelle wie llama3 8b sollen einen größeren Kontext haben, in Wirklichkeit ist das aber nicht so.
    • Mit 16gb VRAM ist es schwer, über 8k hinauszukommen.
  • Alle machen die Kontextfenster größer, aber man sollte auch über die Ausgabe nachdenken.

    • Man möchte Tausende Zeilen Code erzeugen und fragt sich, ob es dafür Tipps gibt.