3 Punkte von GN⁺ 2025-03-06 | 1 Kommentare | Auf WhatsApp teilen
  • Das Modell QwQ-32B verfügt über 32 Milliarden Parameter und zeigt eine ähnliche Leistung wie DeepSeek-R1
  • Das Modell nutzt Reinforcement Learning (RL), um die Intelligenz großer Sprachmodelle zu verbessern
  • Es ist auf Hugging Face und ModelScope unter der Apache-2.0-Lizenz veröffentlicht und über Qwen Chat zugänglich

Leistung

  • QwQ-32B wurde in verschiedenen Benchmarks getestet, die mathematisches Schlussfolgern, Coding-Fähigkeiten und allgemeine Problemlösung bewerten.
  • Die Leistung wurde im Vergleich zu DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini sowie dem ursprünglichen DeepSeek-R1 bewertet
    • QwQ-32B erzielte die beste Leistung bei LiveBench und BFCL und lag bei IFEval und AIME24 auf einem ähnlichen Niveau wie DeepSeek-R1-671B
    • Bei LiveCodeBench lag es leicht unter DeepSeek-R1-671B, war aber weiterhin den anderen Modellen überlegen
    • Insgesamt zeigte es eine mit DeepSeek-R1-671B vergleichbare oder bessere Leistung, obwohl es mit deutlich weniger Parametern (32,5 Milliarden vs. 671 Milliarden) auskommt, und bewies damit seine Wettbewerbsfähigkeit
    • Der Kernpunkt ist also, dass QwQ-32B ein durch Reinforcement Learning optimiertes Modell ist, das trotz seiner wesentlich kleineren Größe Spitzenleistung erreicht

Reinforcement Learning

  • In einer frühen Phase wurde ein skalierender Reinforcement-Learning-Ansatz (RL) für Mathematik- und Coding-Aufgaben eingeführt
  • Anstelle traditioneller Reward-Modelle wurden ein Korrektheitsprüfer und ein Code-Ausführungsserver verwendet, um die Genauigkeit der endgültigen Lösung sicherzustellen
  • Es gibt eine zusätzliche RL-Phase für allgemeine Fähigkeiten, die die Leistung bei allgemeinen Kompetenzen wie menschlichen Präferenzen und Agentenleistung verbessert

Zukünftige Arbeit

  • Qwen befindet sich noch in einer frühen Phase beim Ausbau von Reinforcement Learning (RL), um die Schlussfolgerungsfähigkeit zu verbessern
  • Durch die Kombination eines verstärkten Basismodells mit skalierten Rechenressourcen soll man der Erreichung von Artificial General Intelligence (AGI) näherkommen
  • Derzeit wird erforscht, wie sich durch die Integration von Agenten und RL langfristiges Schlussfolgern ermöglichen lässt, um noch größere Intelligenz zu entfalten

1 Kommentare

 
GN⁺ 2025-03-06
Hacker-News-Kommentare
  • Auf die lange Kontextlänge (130k Token) sollte man achten. Einen langen CoT ohne ausreichenden Kontext zu erzeugen, ist sinnlos.

    • Der erste Prompt war zu lang, sodass die Aufgabe vergessen wurde.
    • Der Nutzer hat keine konkrete Aufgabe vorgegeben.
    • Die anfängliche Anweisung lautete, sich wie ein AI-Agent zu verhalten.
    • Es wirkt, als wolle der Nutzer ein Problem geben und schrittweise Schlussfolgerungen verlangen.
  • Mathematiktraining und Programmieren verbessern allgemeine Reasoning-Fähigkeiten.

  • 20-mal kleiner als DeepSeek. Ich frage mich, auf welcher Hardware es laufen kann.

    • Ein 512GB M3 Ultra dürfte wohl nicht nötig sein.
    • Mit DeepSeek vergleichbar, aber 20-mal kleiner.
  • Chinas Strategie besteht darin, mit Open-Source-Software und Robotik Gewinne zu erzielen.

    • Ich frage mich, wie die USA ihre Stärke aufrechterhalten werden.
    • Indien kann an diesem Wettbewerb nicht teilnehmen.
  • Ein Link wurde bereitgestellt, um Qwen2.5-plus zu testen.

  • Es wurde im November 2024 als "Preview" veröffentlicht.

    • Es verwendet häufig den Ausdruck "warte".
    • Nach der Erzeugung vieler Reasoning-Token tritt das Problem auf, dass es den Faden verliert.
  • Es liegt direkt unter Deepseek-R1.

    • Für 32B ist es sehr beeindruckend.
    • Die Thinking-Token können 10-mal größer sein als die endgültige Antwort.
    • Ich werde es am Wochenende mit Function Calling testen.
  • Aus persönlicher Erfahrung wurde ein Test durchgeführt, bei dem rückwärts gelesen und dann eine Frage beantwortet wird.

    • Liest man "ip fo eulav si tahw" rückwärts, wird daraus "what is value of pi".
    • Der Wert von π ist ungefähr 3,14159.
    • π ist eine irrationale Zahl und wiederholt sich nicht unendlich in einem Muster.
  • Es wurde sofort verarbeitet und war eine positive Erfahrung.