1 Punkte von GN⁺ 2025-01-29 | 1 Kommentare | Auf WhatsApp teilen
  • Qwen2.5-Max ist ein großskaliges Mixture-of-Experts-(MoE)-Modell, das mit mehr als 20 Billionen (20T) Token vortrainiert wurde
  • Das weitere Training erfolgte durch Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF)
  • In den meisten Benchmarks im Vergleich mit DeepSeek V3, GPT-4o, Claude-3.5-Sonnet und Llama-3.1-405B zeigt es herausragende Leistung und setzt sich an die Spitze
    • In Arena-Hard, LiveBench, LiveCodeBench und GPQA-Diamond übertrifft es DeepSeek V3 und zeigt auch in MMLU-Pro wettbewerbsfähige Ergebnisse.

Zentrale Benchmark-Ergebnisse

  • Arena-Hard: Näherungsweise Bewertung menschlicher Präferenzen
    Qwen2.5-Max erreicht 89,4 Punkte und zeigt damit die höchste Leistung. Es ist DeepSeek V3 (85,5 Punkte), GPT-4o (85,2 Punkte) und Claude-3.5-Sonnet (77,9 Punkte) überlegen. Llama-3.1-405B liegt mit 69,3 Punkten vergleichsweise deutlich zurück.
  • MMLU-Pro: Bewertung von Wissen auf Hochschulniveau
    Qwen2.5-Max erreicht 76,1 Punkte und liegt damit nahezu gleichauf mit DeepSeek V3 (75,9 Punkte). GPT-4o (78,0 Punkte) ist etwas besser, aber Qwen2.5-Max ist Claude-3.5-Sonnet (77,0 Punkte) und Llama-3.1-405B (73,3 Punkte) überlegen.
  • GPQA-Diamond: Bewertung allgemeiner Frage-Antwort-Fähigkeiten
    Qwen2.5-Max erreicht 60,1 Punkte und liegt damit knapp vor DeepSeek V3 (59,1 Punkte), bleibt jedoch leicht hinter GPT-4o (53,6 Punkte), Claude-3.5-Sonnet (51,1 Punkte) und Llama-3.1-405B (65,0 Punkte) zurück.
  • LiveCodeBench: Bewertung der Coding-Fähigkeiten
    Qwen2.5-Max erreicht 38,7 Punkte und liegt damit leicht über DeepSeek V3 (37,6 Punkte). Es befindet sich auf einem ähnlichen Niveau wie GPT-4o (35,1 Punkte), Claude-3.5-Sonnet (30,2 Punkte) und Llama-3.1-405B (38,9 Punkte).
  • LiveBench: Bewertung der allgemeinen Modellleistung
    Qwen2.5-Max erreicht mit 62,2 Punkten den höchsten Wert. Es ist DeepSeek V3 (60,5 Punkte), GPT-4o (60,3 Punkte), Claude-3.5-Sonnet (56,0 Punkte) und Llama-3.1-405B (53,2 Punkte) überlegen.

Zukünftige Ausrichtung

  • Die Skalierung von Daten und Modellgröße zeigt Fortschritte in der Modellintelligenz und das Forschungsteam widmet sich der Verbesserung von Denk- und Schlussfolgerungsfähigkeiten großer Sprachmodelle
  • Durch innovative Anwendungen von Reinforcement Learning eröffnet sich die Möglichkeit, Modelle zu entwickeln, die menschliche Intelligenz übertreffen und neue Bereiche von Wissen und Verständnis erschließen