Alibaba stellt Qwen-2-Modelle vor
(qwenlm.github.io)- Qwen2 ist ein gegenüber Qwen1.5 weiterentwickeltes Modell und umfasst vortrainierte sowie Instruction-Tuning-Modelle in fünf Größen
- Die Modellgrößen sind Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B und Qwen2-72B
- Zusätzlich zu Englisch und Chinesisch wurden Daten in 27 weiteren Sprachen nachtrainiert
- In zahlreichen Benchmark-Evaluierungen zeigt es State-of-the-Art-Leistung, wobei sich die Performance besonders in den Bereichen Coding und Mathematik deutlich verbessert hat
- Die Modelle Qwen2-7B-Instruct und Qwen2-72B-Instruct unterstützen mithilfe von YARN eine erweiterte Kontextlänge von bis zu 128K Token
Informationen zu den Qwen2-Modellen
- Bei allen Modellgrößen kommt Group Query Attention (GQA) zum Einsatz, um die Inferenzgeschwindigkeit zu erhöhen und den Speicherverbrauch zu senken
- Bei kleineren Modellen wird bevorzugt die Technik des Embedding Tying eingesetzt
- Die Instruction-Tuning-Modelle wurden über die Evaluierung der Aufgabe Needle in a Haystack hinsichtlich ihrer Fähigkeit zur Verarbeitung großer Kontextlängen bewertet
- Durch die YARN-Technologie können Qwen2-7B-Instruct und Qwen2-72B-Instruct bis zu 128K Token verarbeiten
Leistung
- Vortraining und Instruction Tuning wurden mit Datensätzen in 27 weiteren Sprachen neben Englisch und Chinesisch durchgeführt, um die mehrsprachigen Fähigkeiten zu stärken
- Die Fähigkeit zur Verarbeitung von Code-Switching wurde deutlich verbessert
- Durch vortrainierte Datensätze und optimierte Trainingsmethoden zeigt Qwen2-72B eine bessere Leistung als aktuelle Modelle wie Llama-3-70B
- Durch Post-Training wurden Fähigkeiten in Coding, Mathematik, Reasoning, Befolgung von Anweisungen und mehrsprachigem Verständnis weiter verbessert, außerdem wurde eine Ausrichtung an menschlichen Werten erreicht
- In 16 Benchmarks liegt Qwen2-72B-Instruct deutlich vor Qwen1.5-72B-Chat und zeigt eine Leistung auf Augenhöhe mit Llama-3-70B-Instruct
- Auch kleinere Qwen2-Modelle übertreffen ähnlich große oder größere SOTA-Modelle. Besonders hervorzuheben sind Ergebnisse bei Coding und chinesischbezogenen Metriken
Wichtige Punkte
- Durch die Integration der Erfahrungen und Daten aus dem Code-Training von CodeQwen1.5 wurde die Leistung von Qwen2-72B-Instruct in verschiedenen Programmiersprachen deutlich verbessert
- Mithilfe umfangreicher und hochwertiger Datensätze wurde die Fähigkeit von Qwen2-72B-Instruct zur Lösung mathematischer Probleme gestärkt
- Qwen2-72B-Instruct kann Informationsextraktionsaufgaben mit einer Länge von 128K vollständig verarbeiten
- Eine effiziente Agent-Lösung für die Verarbeitung von Dokumenten mit 1 Million Token wurde ebenfalls Open Source veröffentlicht
- Bei der Bewertung der Quote schädlicher Antworten auf schädliche mehrsprachige Anfragen in vier Kategorien zeigt Qwen2-72B-Instruct ein Sicherheitsniveau ähnlich GPT-4 und ist Mistral-8x22B deutlich überlegen
Einsatz von Qwen2
- Alle Modelle wurden auf Hugging Face und ModelScope veröffentlicht und können frei genutzt werden
- Qwen2-72B und die Instruction-Tuning-Modelle stehen unter der Qianwen License, die übrigen Modelle unter der Apache-2.0-Lizenz
- Hinweise zur Nutzung von Qwen2 mit verschiedenen Third-Party-Frameworks finden sich in der jeweiligen Framework-Dokumentation sowie in der offiziellen Dokumentation
Zukunftspläne für Qwen2
- Es ist geplant, größere Qwen2-Modelle zu trainieren, um neben der Datenskalierung auch die Modellskalierung zu erforschen
- Qwen2 soll zu einem multimodalen Sprachmodell erweitert werden, das auch visuelle und auditive Informationen verstehen kann
- Auch künftig sollen neue Modelle als Open Source veröffentlicht werden, um die Entwicklung von Open-Source-KI zu beschleunigen
1 Kommentare
Alibaba veröffentlicht das Open-Source-AI-Modell QWEN
Qwen1.5-110B: Alibabas erstes 100B+-Modell der Open-Source-LLM-Serie Qwen1.5