QwQ-32B: Mit Reinforcement Learning DeepSeek-R1-ähnliche Leistung mit weniger Parametern erzielen

(qwenlm.github.io)

3 Punkte von GN⁺ 2025-03-06 | 1 Kommentare | Auf WhatsApp teilen

Das Modell QwQ-32B verfügt über 32 Milliarden Parameter und zeigt eine ähnliche Leistung wie DeepSeek-R1
Das Modell nutzt Reinforcement Learning (RL), um die Intelligenz großer Sprachmodelle zu verbessern
Es ist auf Hugging Face und ModelScope unter der Apache-2.0-Lizenz veröffentlicht und über Qwen Chat zugänglich

Leistung

QwQ-32B wurde in verschiedenen Benchmarks getestet, die mathematisches Schlussfolgern, Coding-Fähigkeiten und allgemeine Problemlösung bewerten.
Die Leistung wurde im Vergleich zu DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini sowie dem ursprünglichen DeepSeek-R1 bewertet
- QwQ-32B erzielte die beste Leistung bei LiveBench und BFCL und lag bei IFEval und AIME24 auf einem ähnlichen Niveau wie DeepSeek-R1-671B
- Bei LiveCodeBench lag es leicht unter DeepSeek-R1-671B, war aber weiterhin den anderen Modellen überlegen
- Insgesamt zeigte es eine mit DeepSeek-R1-671B vergleichbare oder bessere Leistung, obwohl es mit deutlich weniger Parametern (32,5 Milliarden vs. 671 Milliarden) auskommt, und bewies damit seine Wettbewerbsfähigkeit
- Der Kernpunkt ist also, dass QwQ-32B ein durch Reinforcement Learning optimiertes Modell ist, das trotz seiner wesentlich kleineren Größe Spitzenleistung erreicht

Reinforcement Learning

In einer frühen Phase wurde ein skalierender Reinforcement-Learning-Ansatz (RL) für Mathematik- und Coding-Aufgaben eingeführt
Anstelle traditioneller Reward-Modelle wurden ein Korrektheitsprüfer und ein Code-Ausführungsserver verwendet, um die Genauigkeit der endgültigen Lösung sicherzustellen
Es gibt eine zusätzliche RL-Phase für allgemeine Fähigkeiten, die die Leistung bei allgemeinen Kompetenzen wie menschlichen Präferenzen und Agentenleistung verbessert

Zukünftige Arbeit

Qwen befindet sich noch in einer frühen Phase beim Ausbau von Reinforcement Learning (RL), um die Schlussfolgerungsfähigkeit zu verbessern
Durch die Kombination eines verstärkten Basismodells mit skalierten Rechenressourcen soll man der Erreichung von Artificial General Intelligence (AGI) näherkommen
Derzeit wird erforscht, wie sich durch die Integration von Agenten und RL langfristiges Schlussfolgern ermöglichen lässt, um noch größere Intelligenz zu entfalten

1 Kommentare

GN⁺ 2025-03-06

Hacker-News-Kommentare

Auf die lange Kontextlänge (130k Token) sollte man achten. Einen langen CoT ohne ausreichenden Kontext zu erzeugen, ist sinnlos.
- Der erste Prompt war zu lang, sodass die Aufgabe vergessen wurde.
- Der Nutzer hat keine konkrete Aufgabe vorgegeben.
- Die anfängliche Anweisung lautete, sich wie ein AI-Agent zu verhalten.
- Es wirkt, als wolle der Nutzer ein Problem geben und schrittweise Schlussfolgerungen verlangen.
Mathematiktraining und Programmieren verbessern allgemeine Reasoning-Fähigkeiten.
20-mal kleiner als DeepSeek. Ich frage mich, auf welcher Hardware es laufen kann.
- Ein 512GB M3 Ultra dürfte wohl nicht nötig sein.
- Mit DeepSeek vergleichbar, aber 20-mal kleiner.
Chinas Strategie besteht darin, mit Open-Source-Software und Robotik Gewinne zu erzielen.
- Ich frage mich, wie die USA ihre Stärke aufrechterhalten werden.
- Indien kann an diesem Wettbewerb nicht teilnehmen.
Ein Link wurde bereitgestellt, um Qwen2.5-plus zu testen.
Es wurde im November 2024 als "Preview" veröffentlicht.
- Es verwendet häufig den Ausdruck "warte".
- Nach der Erzeugung vieler Reasoning-Token tritt das Problem auf, dass es den Faden verliert.
Es liegt direkt unter Deepseek-R1.
- Für 32B ist es sehr beeindruckend.
- Die Thinking-Token können 10-mal größer sein als die endgültige Antwort.
- Ich werde es am Wochenende mit Function Calling testen.
Aus persönlicher Erfahrung wurde ein Test durchgeführt, bei dem rückwärts gelesen und dann eine Frage beantwortet wird.
- Liest man "ip fo eulav si tahw" rückwärts, wird daraus "what is value of pi".
- Der Wert von π ist ungefähr 3,14159.
- π ist eine irrationale Zahl und wiederholt sich nicht unendlich in einem Muster.
Es wurde sofort verarbeitet und war eine positive Erfahrung.

QwQ-32B: Mit Reinforcement Learning DeepSeek-R1-ähnliche Leistung mit weniger Parametern erzielen

Leistung

Reinforcement Learning

Zukünftige Arbeit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare