Alibaba stellt Qwen-2-Modelle vor

xguru · 2024-06-08T10:02:01+09:00

Qwen2 ist ein gegenüber Qwen1.5 weiterentwickeltes Modell und umfasst vortrainierte sowie Instruction-Tuning-Modelle in fünf Größen Die Modellgrößen sind Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B und Qwen2-72B Zusätzlich zu Englisch und Chinesisch wurden Daten in 27 weiteren Sprachen nachtrainiert In zahlreichen Benchmark-Evaluierungen zeigt es State-of-the-Art-Leistung, wobei sich die Performance besonders in den Bereichen Coding und Mathematik deutlich verbessert hat Die Modelle Qwen2-7B-Instruct und Qwen2-72B-Instruct unterstützen mithilfe von YARN eine erweiterte Kontextlänge von bis zu 128K Token Informationen zu den Qwen2-Modellen Bei allen Modellgrößen kommt Group Query Attention (GQA) zum Einsatz, um die Inferenzgeschwindigkeit zu erhöhen und den Speicherverbrauch zu senken Bei kleineren Modellen wird bevorzugt die Technik des Embedding Tying eingesetzt Die Instruction-Tuning-Modelle wurden über die Evaluierung der Aufgabe Needle in a Haystack hinsichtlich ihrer Fähigkeit zur Verarbeitung großer Kontextlängen bewertet Durch die YARN-Technologie können Qwen2-7B-Instruct und Qwen2-72B-Instruct bis zu 128K Token verarbeiten Leistung Vortraining und Instruction Tuning wurden mit Datensätzen in 27 weiteren Sprachen neben Englisch und Chinesisch durchgeführt, um die mehrsprachigen Fähigkeiten zu stärken Die Fähigkeit zur Verarbeitung von Code-Switching wurde deutlich verbessert Durch vortrainierte Datensätze und optimierte Trainingsmethoden zeigt Qwen2-72B eine bessere Leistung als aktuelle Modelle wie Llama-3-70B Durch Post-Training wurden Fähigkeiten in Coding, Mathematik, Reasoning, Befolgung von Anweisungen und mehrsprachigem Verständnis weiter verbessert, außerdem wurde eine Ausrichtung an menschlichen Werten erreicht In 16 Benchmarks liegt Qwen2-72B-Instruct deutlich vor Qwen1.5-72B-Chat und zeigt eine Leistung auf Augenhöhe mit Llama-3-70B-Instruct Auch kleinere Qwen2-Modelle übertreffen ähnlich große oder größere SOTA-Modelle. Besonders hervorzuheben sind Ergebnisse bei Coding und chinesischbezogenen Metriken Wichtige Punkte Durch die Integration der Erfahrungen und Daten aus dem Code-Training von CodeQwen1.5 wurde die Leistung von Qwen2-72B-Instruct in verschiedenen Programmiersprachen deutlich verbessert Mithilfe umfangreicher und hochwertiger Datensätze wurde die Fähigkeit von Qwen2-72B-Instruct zur Lösung mathematischer Probleme gestärkt Qwen2-72B-Instruct kann Informationsextraktionsaufgaben mit einer Länge von 128K vollständig verarbeiten Eine effiziente Agent-Lösung für die Verarbeitung von Dokumenten mit 1 Million Token wurde ebenfalls Open Source veröffentlicht Bei der Bewertung der Quote schädlicher Antworten auf schädliche mehrsprachige Anfragen in vier Kategorien zeigt Qwen2-72B-Instruct ein Sicherheitsniveau ähnlich GPT-4 und ist Mistral-8x22B deutlich überlegen Einsatz von Qwen2 Alle Modelle wurden auf Hugging Face und ModelScope veröffentlicht und können frei genutzt werden Qwen2-72B und die Instruction-Tuning-Modelle stehen unter der Qianwen License, die übrigen Modelle unter der Apache-2.0-Lizenz Hinweise zur Nutzung von Qwen2 mit verschiedenen Third-Party-Frameworks finden sich in der jeweiligen Framework-Dokumentation sowie in der offiziellen Dokumentation Zukunftspläne für Qwen2 Es ist geplant, größere Qwen2-Modelle zu trainieren, um neben der Datenskalierung auch die Modellskalierung zu erforschen Qwen2 soll zu einem multimodalen Sprachmodell erweitert werden, das auch visuelle und auditive Informationen verstehen kann Auch künftig sollen neue Modelle als Open Source veröffentlicht werden, um die Entwicklung von Open-Source-KI zu beschleunigen

(qwenlm.github.io)

5 Punkte von xguru 2024-06-08 | 1 Kommentare | Auf WhatsApp teilen

Qwen2 ist ein gegenüber Qwen1.5 weiterentwickeltes Modell und umfasst vortrainierte sowie Instruction-Tuning-Modelle in fünf Größen
- Die Modellgrößen sind Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B und Qwen2-72B
Zusätzlich zu Englisch und Chinesisch wurden Daten in 27 weiteren Sprachen nachtrainiert
In zahlreichen Benchmark-Evaluierungen zeigt es State-of-the-Art-Leistung, wobei sich die Performance besonders in den Bereichen Coding und Mathematik deutlich verbessert hat
Die Modelle Qwen2-7B-Instruct und Qwen2-72B-Instruct unterstützen mithilfe von YARN eine erweiterte Kontextlänge von bis zu 128K Token

Informationen zu den Qwen2-Modellen

Bei allen Modellgrößen kommt Group Query Attention (GQA) zum Einsatz, um die Inferenzgeschwindigkeit zu erhöhen und den Speicherverbrauch zu senken
Bei kleineren Modellen wird bevorzugt die Technik des Embedding Tying eingesetzt
Die Instruction-Tuning-Modelle wurden über die Evaluierung der Aufgabe Needle in a Haystack hinsichtlich ihrer Fähigkeit zur Verarbeitung großer Kontextlängen bewertet
Durch die YARN-Technologie können Qwen2-7B-Instruct und Qwen2-72B-Instruct bis zu 128K Token verarbeiten

Leistung

Vortraining und Instruction Tuning wurden mit Datensätzen in 27 weiteren Sprachen neben Englisch und Chinesisch durchgeführt, um die mehrsprachigen Fähigkeiten zu stärken
Die Fähigkeit zur Verarbeitung von Code-Switching wurde deutlich verbessert
Durch vortrainierte Datensätze und optimierte Trainingsmethoden zeigt Qwen2-72B eine bessere Leistung als aktuelle Modelle wie Llama-3-70B
Durch Post-Training wurden Fähigkeiten in Coding, Mathematik, Reasoning, Befolgung von Anweisungen und mehrsprachigem Verständnis weiter verbessert, außerdem wurde eine Ausrichtung an menschlichen Werten erreicht
In 16 Benchmarks liegt Qwen2-72B-Instruct deutlich vor Qwen1.5-72B-Chat und zeigt eine Leistung auf Augenhöhe mit Llama-3-70B-Instruct
Auch kleinere Qwen2-Modelle übertreffen ähnlich große oder größere SOTA-Modelle. Besonders hervorzuheben sind Ergebnisse bei Coding und chinesischbezogenen Metriken

Wichtige Punkte

Durch die Integration der Erfahrungen und Daten aus dem Code-Training von CodeQwen1.5 wurde die Leistung von Qwen2-72B-Instruct in verschiedenen Programmiersprachen deutlich verbessert
Mithilfe umfangreicher und hochwertiger Datensätze wurde die Fähigkeit von Qwen2-72B-Instruct zur Lösung mathematischer Probleme gestärkt
Qwen2-72B-Instruct kann Informationsextraktionsaufgaben mit einer Länge von 128K vollständig verarbeiten
Eine effiziente Agent-Lösung für die Verarbeitung von Dokumenten mit 1 Million Token wurde ebenfalls Open Source veröffentlicht
Bei der Bewertung der Quote schädlicher Antworten auf schädliche mehrsprachige Anfragen in vier Kategorien zeigt Qwen2-72B-Instruct ein Sicherheitsniveau ähnlich GPT-4 und ist Mistral-8x22B deutlich überlegen

Einsatz von Qwen2

Alle Modelle wurden auf Hugging Face und ModelScope veröffentlicht und können frei genutzt werden
Qwen2-72B und die Instruction-Tuning-Modelle stehen unter der Qianwen License, die übrigen Modelle unter der Apache-2.0-Lizenz
Hinweise zur Nutzung von Qwen2 mit verschiedenen Third-Party-Frameworks finden sich in der jeweiligen Framework-Dokumentation sowie in der offiziellen Dokumentation

Zukunftspläne für Qwen2

Es ist geplant, größere Qwen2-Modelle zu trainieren, um neben der Datenskalierung auch die Modellskalierung zu erforschen
Qwen2 soll zu einem multimodalen Sprachmodell erweitert werden, das auch visuelle und auditive Informationen verstehen kann
Auch künftig sollen neue Modelle als Open Source veröffentlicht werden, um die Entwicklung von Open-Source-KI zu beschleunigen

1 Kommentare

xguru 2024-06-08

Alibaba veröffentlicht das Open-Source-AI-Modell QWEN
Qwen1.5-110B: Alibabas erstes 100B+-Modell der Open-Source-LLM-Serie Qwen1.5