Qwen2.5-Max: Erkundung der Intelligenz eines groß angelegten MoE-Modells

(qwenlm.github.io)

1 Punkte von GN⁺ 2025-01-29 | 2 Kommentare | Auf WhatsApp teilen

Qwen2.5-Max ist ein groß angelegtes MoE-Modell, das auf mehr als 20 Billionen Tokens vortrainiert wurde und nachgelagert mit SFT und RLHF weitertrainiert wurde; veröffentlicht über die Alibaba Cloud API und in Qwen Chat
Die Bewertung umfasst MMLU-Pro, LiveCodeBench, LiveBench und Arena-Hard; das Instruct-Modell wird vor allem im Hinblick auf reale Downstream-Nutzung wie Chatting und Coding verglichen
Qwen2.5-Max übertraf DeepSeek V3 bei Arena-Hard, LiveBench, LiveCodeBench und GPQA-Diamond und erzielte auch bei MMLU-Pro und anderen Benchmarks wettbewerbsfähige Ergebnisse
Beim Vergleich der Base-Modelle konnte nicht direkt auf GPT-4o und Claude-3.5-Sonnet zugegriffen werden, daher dienten DeepSeek V3, Llama-3.1-405B und Qwen2.5-72B als Vergleichsmodelle
Der API-Modellname lautet qwen-max-2025-01-25; dank OpenAI-API-Kompatibilität lässt sich der bestehende auf OpenAI-Clients basierende Aufruffluss nutzen

Modellgröße und Benchmark-Ergebnisse

Qwen2.5-Max ist ein groß angelegtes MoE-Modell, das unter der Annahme entwickelt wurde, dass die Skalierung von Datenmenge und Modellgröße zu einer Steigerung der Modellintelligenz führen kann
Das Modell wurde mit mehr als 20 Billionen Tokens vortrainiert und anschließend mit ausgewähltem Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF) weitertrainiert
Für die Leistungsbewertung wurden wichtige Benchmarks für Wissen, Coding und allgemeine Fähigkeiten gemeinsam herangezogen
- MMLU-Pro: Wissensbewertung anhand von Aufgaben auf Hochschulniveau
- LiveCodeBench: Bewertung der Coding-Fähigkeiten
- LiveBench: Gesamtbewertung allgemeiner Fähigkeiten
- Arena-Hard: Bewertung, die menschlichen Präferenzen näherkommt
Beim Vergleich der Instruct-Modelle wurden Qwen2.5-Max, DeepSeek V3, GPT-4o und Claude-3.5-Sonnet gemeinsam gegenübergestellt
- Qwen2.5-Max übertraf DeepSeek V3 bei Arena-Hard, LiveBench, LiveCodeBench und GPQA-Diamond
- Auch bei anderen Bewertungen einschließlich MMLU-Pro zeigte es wettbewerbsfähige Ergebnisse
Beim Vergleich der Base-Modelle lag der Fokus auf Open-Weight-Modellen, da auf proprietäre Modelle wie GPT-4o und Claude-3.5-Sonnet nicht zugegriffen werden konnte
- Die Vergleichsmodelle waren DeepSeek V3, Llama-3.1-405B und Qwen2.5-72B
- Das Base-Modell von Qwen2.5-Max zeigte in den meisten Benchmarks einen deutlichen Vorsprung
Künftige Versionen zielen durch Verbesserungen bei den Post-Training-Methoden auf noch höhere Leistung ab

API-Nutzung und nächste Aufgaben

Qwen2.5-Max kann in Qwen Chat genutzt werden; dort sind direktes Chatten sowie Artifacts, Search und mehr verfügbar
Die API wird über Alibaba Cloud bereitgestellt
- Der Modellname lautet qwen-max-2025-01-25
- Nach Registrierung eines Alibaba-Cloud-Kontos und Aktivierung des Model-Studio-Dienstes kann in der Konsole ein API-Key erstellt werden
Die Qwen API ist OpenAI-API-kompatibel und kann daher mit OpenAI-Clients aufgerufen werden

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

Zukünftige Arbeiten konzentrieren sich darauf, durch erweitertes Reinforcement Learning die Denk- und Schlussfolgerungsfähigkeiten großer Sprachmodelle zu verbessern
Die Zitationsangaben zu Qwen2.5 sind der Qwen2.5 technical report, arXiv-Preprint arXiv:2412.15115

2 Kommentare

GN⁺ 2025-01-29

Meinungen auf Hacker News

Sie sagen, dass die jüngste Veröffentlichung von DeepSeek V3 gezeigt habe, wie nützlich zentrale Details des Skalierungsprozesses sind, veröffentlichen aber ihre eigenen Trainingsinformationen nicht.
Wenn es eine geschlossene API ist und es keine weiteren Informationen gibt, interessiert mich die Aussage „fast auf o1-Niveau“ kaum.
- Es ist nicht einmal „fast auf o1-Niveau“. Der Vergleich erfolgt nur mit dem älteren 4o.
  Man kann davon ausgehen, dass Qwen2.5-Max schlechter abschneidet als die neueren Reasoning-Modelle (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking).
  Mit Reinforcement Learning für Reasoning könnte daraus ein sehr starkes Modell werden, aber da alle erfolgreichen Rezepte geschlossen sind, kann das dauern. In der Zwischenzeit könnte man zwar auf Basis der Reasoning Chains anderer Modelle Supervised Fine-Tuning (SFT) machen, aber auch der technische Bericht zu DeepSeek-R1 sagte, dass das nicht so gut ist wie Reinforcement Learning.
Ich dachte, auf der HN-Startseite gäbe es drei DeepSeek-Einträge, aber es stellte sich heraus, dass es der vierte war. Es war nämlich ein Beitrag, in dem das Qwen-Team sagte, es habe eine geheime Qwen-Version, die besser als DeepSeek-V3 sei.
Ich kann mich nicht erinnern, wann 20 % der HN-Startseite demselben Thema gewidmet waren. Natürlich fällt mir auch kein Unternehmen ein, das wie NVIDIA gestern 569 Milliarden US-Dollar an Marktkapitalisierung verloren hat.
- Ich habe übersehen, dass 4 ÷ 30 nicht 20 % sind. Tatsächlich sind es eher 13 %. Dummer Fehler.
HuggingFace-Demo: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
Quelle: https://x.com/Alibaba_Qwen/status/1884263157574820053
Es ist ziemlich überraschend, dass ein chinesisches Unternehmen das am Vorabend des chinesischen Neujahrsfests angekündigt hat. Die DeepSeek-Veröffentlichung hat offenbar wirklich den Funken gezündet.
Allein dass bei chinesischen Tech-Unternehmen gerade überhaupt etwas läuft, ist unerwartet.
- Die DeepSeek-Ingenieure dürften verzweifelt mit Incident Response beschäftigt sein, weil sie weit unter der benötigten Kapazität liegen. Die Wettbewerber haben offenbar entweder bereits eilig veröffentlicht oder beschlossen, etwas, das ohnehin in Vorbereitung war, still herauszubringen. Es wirkt so, als würden alle hart arbeiten.
- Ähnlich wie damals, als Gemini auf Platz 1 der Chatbot-Arena-Rangliste kam und OpenAI am nächsten Tag ein Modell veröffentlichte.
Das scheint Qwens neues Topmodell zu sein und ist derzeit nur per API verfügbar. Sie sagen, es sei besser als DeepSeek v3.
- Über den Modellauswahlschalter auf https://chat.qwenlm.ai/ kann man es nutzen.
Ich habe meinen NYT-Connections-Benchmark laufen lassen und es kam auf 18,6 Punkte, gegenüber 14,8 Punkten bei Qwen 2.5 72B. Andere Benchmarks werde ich später ebenfalls ausführen.
https://github.com/lechmazur/nyt-connections/
Mixture of Experts (MoE) in der Cloud wirkt irgendwie etwas fragwürdig. Auf Desktop-Hardware kann es dagegen wirklich glänzen.
Speicher wird immer schneller, sodass MoE bei relativ großen Modellen womöglich schon bald nicht mehr quälend langsam sein wird.
Ohne Gewichte gibt es keine Belege.
- Wirst du dasselbe sagen, wenn OpenAI ein neues Modell veröffentlicht?
Das ist kein Reasoning-Modell. Wenn es DeepSeek V3 in den Benchmarks geschlagen hat, könnte eine Reasoning-Modellversion wohl sogar o1 Pro schlagen.

xguru 2025-01-29

2023-08-03 Alibaba veröffentlicht das Open-Source-AI-Modell QWEN
2024-04-25 Qwen1.5-110B: Alibabas erstes 100B+-Modell der Open-Source-LLM-Serie Qwen1.5
2024-06-07 Alibaba veröffentlicht das Modell Qwen 2
2024-09-19 Qwen2.5 - Veröffentlichung mehrerer Foundation-Modelle
2024-11-28 QwQ - Alibabas Reasoning-LLM, ähnlich wie ChatGPT o1
2024-12-24 Erfahrungsbericht zum Einsatz von Qwens neuem visuellen Reasoning-Modell QvQ
2025-01-27 Qwen2.5-1M - Qwen selbst hosten mit Unterstützung für bis zu 1 Million Tokens

Während DeepSeek gerade für Aufsehen sorgt, haut auch Qwen im Tagestakt gewaltige Ergebnisse heraus.
Chinesische Unternehmen sind wirklich beeindruckend.