- Qwen2.5-Max ist ein großskaliges Mixture-of-Experts-(MoE)-Modell, das mit mehr als 20 Billionen (20T) Token vortrainiert wurde
- Das weitere Training erfolgte durch Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF)
- In den meisten Benchmarks im Vergleich mit DeepSeek V3, GPT-4o, Claude-3.5-Sonnet und Llama-3.1-405B zeigt es herausragende Leistung und setzt sich an die Spitze
- In Arena-Hard, LiveBench, LiveCodeBench und GPQA-Diamond übertrifft es DeepSeek V3 und zeigt auch in MMLU-Pro wettbewerbsfähige Ergebnisse.
Zentrale Benchmark-Ergebnisse
- Arena-Hard: Näherungsweise Bewertung menschlicher Präferenzen
Qwen2.5-Max erreicht 89,4 Punkte und zeigt damit die höchste Leistung. Es ist DeepSeek V3 (85,5 Punkte), GPT-4o (85,2 Punkte) und Claude-3.5-Sonnet (77,9 Punkte) überlegen. Llama-3.1-405B liegt mit 69,3 Punkten vergleichsweise deutlich zurück.
- MMLU-Pro: Bewertung von Wissen auf Hochschulniveau
Qwen2.5-Max erreicht 76,1 Punkte und liegt damit nahezu gleichauf mit DeepSeek V3 (75,9 Punkte). GPT-4o (78,0 Punkte) ist etwas besser, aber Qwen2.5-Max ist Claude-3.5-Sonnet (77,0 Punkte) und Llama-3.1-405B (73,3 Punkte) überlegen.
- GPQA-Diamond: Bewertung allgemeiner Frage-Antwort-Fähigkeiten
Qwen2.5-Max erreicht 60,1 Punkte und liegt damit knapp vor DeepSeek V3 (59,1 Punkte), bleibt jedoch leicht hinter GPT-4o (53,6 Punkte), Claude-3.5-Sonnet (51,1 Punkte) und Llama-3.1-405B (65,0 Punkte) zurück.
- LiveCodeBench: Bewertung der Coding-Fähigkeiten
Qwen2.5-Max erreicht 38,7 Punkte und liegt damit leicht über DeepSeek V3 (37,6 Punkte). Es befindet sich auf einem ähnlichen Niveau wie GPT-4o (35,1 Punkte), Claude-3.5-Sonnet (30,2 Punkte) und Llama-3.1-405B (38,9 Punkte).
- LiveBench: Bewertung der allgemeinen Modellleistung
Qwen2.5-Max erreicht mit 62,2 Punkten den höchsten Wert. Es ist DeepSeek V3 (60,5 Punkte), GPT-4o (60,3 Punkte), Claude-3.5-Sonnet (56,0 Punkte) und Llama-3.1-405B (53,2 Punkte) überlegen.
Zukünftige Ausrichtung
- Die Skalierung von Daten und Modellgröße zeigt Fortschritte in der Modellintelligenz und das Forschungsteam widmet sich der Verbesserung von Denk- und Schlussfolgerungsfähigkeiten großer Sprachmodelle
- Durch innovative Anwendungen von Reinforcement Learning eröffnet sich die Möglichkeit, Modelle zu entwickeln, die menschliche Intelligenz übertreffen und neue Bereiche von Wissen und Verständnis erschließen
1 Kommentare
2023-08-03 Alibaba veröffentlicht das Open-Source-AI-Modell QWEN
2024-04-25 Qwen1.5-110B: Alibabas erstes 100B+-Modell der Open-Source-LLM-Serie Qwen1.5
2024-06-07 Alibaba veröffentlicht das Modell Qwen 2
2024-09-19 Qwen2.5 - Veröffentlichung mehrerer Foundation-Modelle
2024-11-28 QwQ - Alibabas Reasoning-LLM, ähnlich wie ChatGPT o1
2024-12-24 Erfahrungsbericht zum Einsatz von Qwens neuem visuellen Reasoning-Modell QvQ
2025-01-27 Qwen2.5-1M - Qwen selbst hosten mit Unterstützung für bis zu 1 Million Tokens
Während DeepSeek gerade für Aufsehen sorgt, haut auch Qwen im Tagestakt gewaltige Ergebnisse heraus.
Chinesische Unternehmen sind wirklich beeindruckend.