- Das Modell QwQ-32B verfügt über 32 Milliarden Parameter und zeigt eine ähnliche Leistung wie DeepSeek-R1
- Das Modell nutzt Reinforcement Learning (RL), um die Intelligenz großer Sprachmodelle zu verbessern
- Es ist auf Hugging Face und ModelScope unter der Apache-2.0-Lizenz veröffentlicht und über Qwen Chat zugänglich
Leistung
- QwQ-32B wurde in verschiedenen Benchmarks getestet, die mathematisches Schlussfolgern, Coding-Fähigkeiten und allgemeine Problemlösung bewerten.
- Die Leistung wurde im Vergleich zu DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini sowie dem ursprünglichen DeepSeek-R1 bewertet
- QwQ-32B erzielte die beste Leistung bei LiveBench und BFCL und lag bei IFEval und AIME24 auf einem ähnlichen Niveau wie DeepSeek-R1-671B
- Bei LiveCodeBench lag es leicht unter DeepSeek-R1-671B, war aber weiterhin den anderen Modellen überlegen
- Insgesamt zeigte es eine mit DeepSeek-R1-671B vergleichbare oder bessere Leistung, obwohl es mit deutlich weniger Parametern (32,5 Milliarden vs. 671 Milliarden) auskommt, und bewies damit seine Wettbewerbsfähigkeit
- Der Kernpunkt ist also, dass QwQ-32B ein durch Reinforcement Learning optimiertes Modell ist, das trotz seiner wesentlich kleineren Größe Spitzenleistung erreicht
Reinforcement Learning
- In einer frühen Phase wurde ein skalierender Reinforcement-Learning-Ansatz (RL) für Mathematik- und Coding-Aufgaben eingeführt
- Anstelle traditioneller Reward-Modelle wurden ein Korrektheitsprüfer und ein Code-Ausführungsserver verwendet, um die Genauigkeit der endgültigen Lösung sicherzustellen
- Es gibt eine zusätzliche RL-Phase für allgemeine Fähigkeiten, die die Leistung bei allgemeinen Kompetenzen wie menschlichen Präferenzen und Agentenleistung verbessert
Zukünftige Arbeit
- Qwen befindet sich noch in einer frühen Phase beim Ausbau von Reinforcement Learning (RL), um die Schlussfolgerungsfähigkeit zu verbessern
- Durch die Kombination eines verstärkten Basismodells mit skalierten Rechenressourcen soll man der Erreichung von Artificial General Intelligence (AGI) näherkommen
- Derzeit wird erforscht, wie sich durch die Integration von Agenten und RL langfristiges Schlussfolgern ermöglichen lässt, um noch größere Intelligenz zu entfalten
1 Kommentare
Hacker-News-Kommentare
Auf die lange Kontextlänge (130k Token) sollte man achten. Einen langen CoT ohne ausreichenden Kontext zu erzeugen, ist sinnlos.
Mathematiktraining und Programmieren verbessern allgemeine Reasoning-Fähigkeiten.
20-mal kleiner als DeepSeek. Ich frage mich, auf welcher Hardware es laufen kann.
Chinas Strategie besteht darin, mit Open-Source-Software und Robotik Gewinne zu erzielen.
Ein Link wurde bereitgestellt, um Qwen2.5-plus zu testen.
Es wurde im November 2024 als "Preview" veröffentlicht.
Es liegt direkt unter Deepseek-R1.
Aus persönlicher Erfahrung wurde ein Test durchgeführt, bei dem rückwärts gelesen und dann eine Frage beantwortet wird.
Es wurde sofort verarbeitet und war eine positive Erfahrung.