Qwen2.5 – mehrere Foundation-Modelle veröffentlicht

xguru · 2024-09-20T11:22:54+09:00

Qwen2.5 umfasst spezialisierte Modelle wie das LLM Qwen2.5, das Coding-Modell Qwen2.5-Coder und das Mathematik-Modell Qwen2.5-Math Alle Open-Weight-Modelle sind dense decoder-only Sprachmodelle und werden in verschiedenen Größen von 0.5B bis 72B angeboten Alle Open-Source-Modelle außer den 3B- und 72B-Modellen werden unter der Apache-2.0-Lizenz bereitgestellt Die Flaggschiff-Sprachmodelle Qwen-Plus und Qwen-Turbo werden über Model Studio per API angeboten Auch Qwen2-VL-72B wurde als Open Source veröffentlicht und bietet eine verbesserte Leistung gegenüber der Version vom letzten Monat Merkmale von Qwen2.5 Mit einem groß angelegten Datensatz von bis zu 18 Billionen Tokens vortrainiert, wodurch das Wissen im Vergleich zu Qwen2 deutlich gewachsen ist (MMLU: 85+) Auch die Fähigkeiten in Coding (HumanEval 85+) und Mathematik (MATH 80+) wurden deutlich verbessert Die Fähigkeit zum Befolgen von Anweisungen, zur Erzeugung langer Texte (mehr als 8K Tokens), zum Verstehen strukturierter Daten (z. B. Tabellen) sowie zur Erzeugung strukturierter Ausgaben wie JSON wurde stark verbessert Widerstandsfähiger gegenüber unterschiedlichen System-Prompts, wodurch Rollenverhalten und Bedingungssetzung bei Chatbots einfacher werden Wie bei Qwen2 unterstützen die Qwen2.5-Sprachmodelle bis zu 128K Tokens und können bis zu 8K Tokens erzeugen Unterstützt mehr als 29 Sprachen, darunter Chinesisch, Englisch, Französisch, Spanisch, Portugiesisch, Deutsch, Italienisch, Russisch, Japanisch, Koreanisch, Vietnamesisch, Thai und Arabisch Leistung Qwen2.5 Verglichen wird die Leistung des größten Open-Source-Modells Qwen2.5-72B (dense decoder-only Sprachmodell mit 72B Parametern) mit wichtigen Open-Source-Modellen wie Llama-3.1-70B und Mistral-Large-V2 Auf verschiedenen Benchmarks werden umfassende Ergebnisse der instruction-tuned Versionen präsentiert, wobei sowohl Modellfähigkeiten als auch menschliche Präferenzen bewertet werden Neben den instruction-tuned Sprachmodellen zeigt auch das Base-Sprachmodell von Qwen2.5-72B Spitzenleistung, selbst im Vergleich mit größeren Modellen wie Llama-3-405B Die neueste Version des API-basierten Modells Qwen-Plus wird mit bekannten proprietären und Open-Source-Modellen wie GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B und DeepSeek-V2.5 verglichen Qwen-Plus übertrifft DeepSeek-V2.5 deutlich und liefert eine mit Llama-3.1-405B vergleichbare Leistung, erreicht in manchen Aspekten jedoch nicht GPT4-o und Claude-3.5-Sonnet Qwen2.5-14B und Qwen2.5-32B werden erneut eingeführt. Diese Modelle übertreffen Referenzmodelle ähnlicher oder größerer Größe wie Phi-3.5-MoE-Instruct und Gemma2-27B-IT Das API-basierte Modell Qwen-Turbo bietet schnellen Service zu einem vernünftigen Preis und zeigt im Vergleich zu den beiden Open-Source-Modellen eine sehr wettbewerbsfähige Leistung Qwen2.5-3B liefert mit rund 3 Milliarden Parametern eine sehr beeindruckende Leistung und übertrifft die vorherige Version bei Effizienz und Fähigkeiten Neben Verbesserungen bei Benchmark-Auswertungen wurde auch die Methodik des Post-Trainings verbessert. Die vier wichtigsten Updates sind Unterstützung für die Erzeugung langer Texte bis zu 8K Tokens, deutlich besseres Verständnis strukturierter Daten, zuverlässigere Erzeugung strukturierter Ausgaben wie JSON sowie verbesserte Leistung mit verschiedenen System-Prompts, was bei der Rollenübernahme hilft Qwen2.5-Coder Seit der Einführung von CodeQwen1.5 verlassen sich viele Nutzer bei verschiedenen Coding-Aufgaben wie Debugging, der Beantwortung codingbezogener Fragen und Code-Vorschlägen auf dieses Modell Die neueste Version, Qwen2.5-Coder, wurde speziell für Coding-Anwendungen entwickelt Trotz seiner geringen Größe zeigt es herausragende Coding-Fähigkeiten und übertrifft bei verschiedenen Programmiersprachen und Aufgaben größere Sprachmodelle Qwen2.5-Math Im vergangenen Monat wurde mit Qwen2-Math erstmals ein spezialisiertes Sprachmodell für Mathematik veröffentlicht. Im Vergleich dazu wurde Qwen2.5-Math mit einem deutlich größeren mathematikbezogenen Datensatz vortrainiert, einschließlich synthetischer Daten, die von Qwen2-Math erzeugt wurden Diesmal wurde die Unterstützung für Chinesisch erweitert und die Fähigkeiten für CoT, PoT und TIR hinzugefügt, wodurch auch das Schlussfolgern verbessert wurde Die allgemeine Leistung von Qwen2.5-Math-72B-Instruct übertrifft Qwen2-Math-72B-Instruct und GPT4-o, und selbst sehr kleine Expertenmodelle wie Qwen2.5-Math-1.5B-Instruct können im Vergleich zu großen Sprachmodellen eine sehr wettbewerbsfähige Leistung erzielen Entwicklung mit Qwen2.5 Um Qwen2.5 mit vLLM zu verwenden, kann mit folgendem Befehl ein OpenAI-API-kompatibler Dienst bereitgestellt werden: Qwen2.5 unterstützt das integrierte tool calling von vllm. Diese Funktion erfordert vllm>=0.6 Qwen2.5 unterstützt außerdem tool calling von Ollama Auch die Unterstützung für tool calling in transformers von Hugging Face ist verfügbar Zuvor unterstützte Qwen-Agent tool calling mit der eigenen tool-calling-Vorlage von Qwen2, und Qwen2.5 bleibt sowohl mit der Qwen2-Vorlage als auch mit Qwen-Agent kompatibel Was ist als Nächstes geplant? Das Team freut sich, gleichzeitig viele hochwertige Modelle veröffentlicht zu haben, ist sich aber bewusst, dass weiterhin große Herausforderungen bestehen Die jüngsten Veröffentlichungen zeigen die Bemühungen, starke Foundation-Modelle in den Bereichen Sprache, Vision-Language und Audio-Language zu entwickeln Es ist jedoch wichtig, diese verschiedenen Modalitäten in einem einzigen Modell zu vereinen, damit Informationen in allen Bereichen nahtlos verarbeitet werden können Durch Data Scaling wurde die Fähigkeit zum Schlussfolgern verbessert, und inspiriert von jüngsten Fortschritten im Reinforcement Learning arbeitet das Team nun daran, auch inference compute zu skalieren, um die Schlussfolgerungsfähigkeit der Modelle weiter zu steigern

(qwenlm.github.io)

7 Punkte von xguru 2024-09-20 | 1 Kommentare | Auf WhatsApp teilen

Qwen2.5 umfasst spezialisierte Modelle wie das LLM Qwen2.5, das Coding-Modell Qwen2.5-Coder und das Mathematik-Modell Qwen2.5-Math
Alle Open-Weight-Modelle sind dense decoder-only Sprachmodelle und werden in verschiedenen Größen von 0.5B bis 72B angeboten
Alle Open-Source-Modelle außer den 3B- und 72B-Modellen werden unter der Apache-2.0-Lizenz bereitgestellt
Die Flaggschiff-Sprachmodelle Qwen-Plus und Qwen-Turbo werden über Model Studio per API angeboten
Auch Qwen2-VL-72B wurde als Open Source veröffentlicht und bietet eine verbesserte Leistung gegenüber der Version vom letzten Monat

Merkmale von Qwen2.5

Mit einem groß angelegten Datensatz von bis zu 18 Billionen Tokens vortrainiert, wodurch das Wissen im Vergleich zu Qwen2 deutlich gewachsen ist (MMLU: 85+)
Auch die Fähigkeiten in Coding (HumanEval 85+) und Mathematik (MATH 80+) wurden deutlich verbessert
Die Fähigkeit zum Befolgen von Anweisungen, zur Erzeugung langer Texte (mehr als 8K Tokens), zum Verstehen strukturierter Daten (z. B. Tabellen) sowie zur Erzeugung strukturierter Ausgaben wie JSON wurde stark verbessert
Widerstandsfähiger gegenüber unterschiedlichen System-Prompts, wodurch Rollenverhalten und Bedingungssetzung bei Chatbots einfacher werden
Wie bei Qwen2 unterstützen die Qwen2.5-Sprachmodelle bis zu 128K Tokens und können bis zu 8K Tokens erzeugen
Unterstützt mehr als 29 Sprachen, darunter Chinesisch, Englisch, Französisch, Spanisch, Portugiesisch, Deutsch, Italienisch, Russisch, Japanisch, Koreanisch, Vietnamesisch, Thai und Arabisch

Leistung

Qwen2.5

Verglichen wird die Leistung des größten Open-Source-Modells Qwen2.5-72B (dense decoder-only Sprachmodell mit 72B Parametern) mit wichtigen Open-Source-Modellen wie Llama-3.1-70B und Mistral-Large-V2
Auf verschiedenen Benchmarks werden umfassende Ergebnisse der instruction-tuned Versionen präsentiert, wobei sowohl Modellfähigkeiten als auch menschliche Präferenzen bewertet werden
Neben den instruction-tuned Sprachmodellen zeigt auch das Base-Sprachmodell von Qwen2.5-72B Spitzenleistung, selbst im Vergleich mit größeren Modellen wie Llama-3-405B
Die neueste Version des API-basierten Modells Qwen-Plus wird mit bekannten proprietären und Open-Source-Modellen wie GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B und DeepSeek-V2.5 verglichen
- Qwen-Plus übertrifft DeepSeek-V2.5 deutlich und liefert eine mit Llama-3.1-405B vergleichbare Leistung, erreicht in manchen Aspekten jedoch nicht GPT4-o und Claude-3.5-Sonnet
Qwen2.5-14B und Qwen2.5-32B werden erneut eingeführt. Diese Modelle übertreffen Referenzmodelle ähnlicher oder größerer Größe wie Phi-3.5-MoE-Instruct und Gemma2-27B-IT
Das API-basierte Modell Qwen-Turbo bietet schnellen Service zu einem vernünftigen Preis und zeigt im Vergleich zu den beiden Open-Source-Modellen eine sehr wettbewerbsfähige Leistung
Qwen2.5-3B liefert mit rund 3 Milliarden Parametern eine sehr beeindruckende Leistung und übertrifft die vorherige Version bei Effizienz und Fähigkeiten
Neben Verbesserungen bei Benchmark-Auswertungen wurde auch die Methodik des Post-Trainings verbessert. Die vier wichtigsten Updates sind Unterstützung für die Erzeugung langer Texte bis zu 8K Tokens, deutlich besseres Verständnis strukturierter Daten, zuverlässigere Erzeugung strukturierter Ausgaben wie JSON sowie verbesserte Leistung mit verschiedenen System-Prompts, was bei der Rollenübernahme hilft

Qwen2.5-Coder

Seit der Einführung von CodeQwen1.5 verlassen sich viele Nutzer bei verschiedenen Coding-Aufgaben wie Debugging, der Beantwortung codingbezogener Fragen und Code-Vorschlägen auf dieses Modell
Die neueste Version, Qwen2.5-Coder, wurde speziell für Coding-Anwendungen entwickelt
Trotz seiner geringen Größe zeigt es herausragende Coding-Fähigkeiten und übertrifft bei verschiedenen Programmiersprachen und Aufgaben größere Sprachmodelle

Qwen2.5-Math

Im vergangenen Monat wurde mit Qwen2-Math erstmals ein spezialisiertes Sprachmodell für Mathematik veröffentlicht. Im Vergleich dazu wurde Qwen2.5-Math mit einem deutlich größeren mathematikbezogenen Datensatz vortrainiert, einschließlich synthetischer Daten, die von Qwen2-Math erzeugt wurden
Diesmal wurde die Unterstützung für Chinesisch erweitert und die Fähigkeiten für CoT, PoT und TIR hinzugefügt, wodurch auch das Schlussfolgern verbessert wurde
Die allgemeine Leistung von Qwen2.5-Math-72B-Instruct übertrifft Qwen2-Math-72B-Instruct und GPT4-o, und selbst sehr kleine Expertenmodelle wie Qwen2.5-Math-1.5B-Instruct können im Vergleich zu großen Sprachmodellen eine sehr wettbewerbsfähige Leistung erzielen

Entwicklung mit Qwen2.5

Um Qwen2.5 mit vLLM zu verwenden, kann mit folgendem Befehl ein OpenAI-API-kompatibler Dienst bereitgestellt werden:
Qwen2.5 unterstützt das integrierte tool calling von vllm. Diese Funktion erfordert vllm>=0.6
Qwen2.5 unterstützt außerdem tool calling von Ollama
Auch die Unterstützung für tool calling in transformers von Hugging Face ist verfügbar
Zuvor unterstützte Qwen-Agent tool calling mit der eigenen tool-calling-Vorlage von Qwen2, und Qwen2.5 bleibt sowohl mit der Qwen2-Vorlage als auch mit Qwen-Agent kompatibel

Was ist als Nächstes geplant?

Das Team freut sich, gleichzeitig viele hochwertige Modelle veröffentlicht zu haben, ist sich aber bewusst, dass weiterhin große Herausforderungen bestehen
Die jüngsten Veröffentlichungen zeigen die Bemühungen, starke Foundation-Modelle in den Bereichen Sprache, Vision-Language und Audio-Language zu entwickeln
Es ist jedoch wichtig, diese verschiedenen Modalitäten in einem einzigen Modell zu vereinen, damit Informationen in allen Bereichen nahtlos verarbeitet werden können
Durch Data Scaling wurde die Fähigkeit zum Schlussfolgern verbessert, und inspiriert von jüngsten Fortschritten im Reinforcement Learning arbeitet das Team nun daran, auch inference compute zu skalieren, um die Schlussfolgerungsfähigkeit der Modelle weiter zu steigern

1 Kommentare

xguru 2024-09-20

Alibaba veröffentlicht das Open-Source-AI-Modell QWEN
Alibaba veröffentlicht das Modell Qwen 2