5 Punkte von xguru 2024-06-08 | 1 Kommentare | Auf WhatsApp teilen
  • Qwen2 ist ein gegenüber Qwen1.5 weiterentwickeltes Modell und umfasst vortrainierte sowie Instruction-Tuning-Modelle in fünf Größen
    • Die Modellgrößen sind Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B und Qwen2-72B
  • Zusätzlich zu Englisch und Chinesisch wurden Daten in 27 weiteren Sprachen nachtrainiert
  • In zahlreichen Benchmark-Evaluierungen zeigt es State-of-the-Art-Leistung, wobei sich die Performance besonders in den Bereichen Coding und Mathematik deutlich verbessert hat
  • Die Modelle Qwen2-7B-Instruct und Qwen2-72B-Instruct unterstützen mithilfe von YARN eine erweiterte Kontextlänge von bis zu 128K Token

Informationen zu den Qwen2-Modellen

  • Bei allen Modellgrößen kommt Group Query Attention (GQA) zum Einsatz, um die Inferenzgeschwindigkeit zu erhöhen und den Speicherverbrauch zu senken
  • Bei kleineren Modellen wird bevorzugt die Technik des Embedding Tying eingesetzt
  • Die Instruction-Tuning-Modelle wurden über die Evaluierung der Aufgabe Needle in a Haystack hinsichtlich ihrer Fähigkeit zur Verarbeitung großer Kontextlängen bewertet
  • Durch die YARN-Technologie können Qwen2-7B-Instruct und Qwen2-72B-Instruct bis zu 128K Token verarbeiten

Leistung

  • Vortraining und Instruction Tuning wurden mit Datensätzen in 27 weiteren Sprachen neben Englisch und Chinesisch durchgeführt, um die mehrsprachigen Fähigkeiten zu stärken
  • Die Fähigkeit zur Verarbeitung von Code-Switching wurde deutlich verbessert
  • Durch vortrainierte Datensätze und optimierte Trainingsmethoden zeigt Qwen2-72B eine bessere Leistung als aktuelle Modelle wie Llama-3-70B
  • Durch Post-Training wurden Fähigkeiten in Coding, Mathematik, Reasoning, Befolgung von Anweisungen und mehrsprachigem Verständnis weiter verbessert, außerdem wurde eine Ausrichtung an menschlichen Werten erreicht
  • In 16 Benchmarks liegt Qwen2-72B-Instruct deutlich vor Qwen1.5-72B-Chat und zeigt eine Leistung auf Augenhöhe mit Llama-3-70B-Instruct
  • Auch kleinere Qwen2-Modelle übertreffen ähnlich große oder größere SOTA-Modelle. Besonders hervorzuheben sind Ergebnisse bei Coding und chinesischbezogenen Metriken

Wichtige Punkte

  • Durch die Integration der Erfahrungen und Daten aus dem Code-Training von CodeQwen1.5 wurde die Leistung von Qwen2-72B-Instruct in verschiedenen Programmiersprachen deutlich verbessert
  • Mithilfe umfangreicher und hochwertiger Datensätze wurde die Fähigkeit von Qwen2-72B-Instruct zur Lösung mathematischer Probleme gestärkt
  • Qwen2-72B-Instruct kann Informationsextraktionsaufgaben mit einer Länge von 128K vollständig verarbeiten
  • Eine effiziente Agent-Lösung für die Verarbeitung von Dokumenten mit 1 Million Token wurde ebenfalls Open Source veröffentlicht
  • Bei der Bewertung der Quote schädlicher Antworten auf schädliche mehrsprachige Anfragen in vier Kategorien zeigt Qwen2-72B-Instruct ein Sicherheitsniveau ähnlich GPT-4 und ist Mistral-8x22B deutlich überlegen

Einsatz von Qwen2

  • Alle Modelle wurden auf Hugging Face und ModelScope veröffentlicht und können frei genutzt werden
  • Qwen2-72B und die Instruction-Tuning-Modelle stehen unter der Qianwen License, die übrigen Modelle unter der Apache-2.0-Lizenz
  • Hinweise zur Nutzung von Qwen2 mit verschiedenen Third-Party-Frameworks finden sich in der jeweiligen Framework-Dokumentation sowie in der offiziellen Dokumentation

Zukunftspläne für Qwen2

  • Es ist geplant, größere Qwen2-Modelle zu trainieren, um neben der Datenskalierung auch die Modellskalierung zu erforschen
  • Qwen2 soll zu einem multimodalen Sprachmodell erweitert werden, das auch visuelle und auditive Informationen verstehen kann
  • Auch künftig sollen neue Modelle als Open Source veröffentlicht werden, um die Entwicklung von Open-Source-KI zu beschleunigen