VibeThinker-3B: 3B-Modell übertrifft mit SFT+GRPO die Inferenzleistung von Opus 4.5

(arxiv.org)

2 Punkte von GN⁺ 5 시간 전 | 1 Kommentare | Auf WhatsApp teilen

VibeThinker-3B ist ein kleines dichtes Modell, das untersucht, wie weit sich verifizierbares Reasoning mit nur 3B Parametern komprimieren lässt
Die Trainingspipeline kombiniert auf Basis des Spectrum-to-Signal-Post-Trainings curriculum-basiertes überwachtes Fine-Tuning, Multi-Domain-Reinforcement-Learning und Offline-Selbstdestillation
Auf AIME26 erreichte es 94,3 Punkte, mit CLR 97,1 Punkte; außerdem wurden 80,2 Pass@1 auf LiveCodeBench v6 und eine Akzeptanzrate von 96,1 % bei aktuellen unveröffentlichten LeetCode-Wettbewerben berichtet
Trotz der Einordnung in eine ähnliche oder höhere Leistungsklasse als deutlich größere Flaggschiff-Modelle wie DeepSeek V3.2, GLM-5 und Gemini 3 Pro hält es mit 93,4 Punkten auf IFEval eine strenge Instruktionskontrolle aufrecht
Die Parametric Compression-Coverage Hypothesis geht davon aus, dass sich verifizierbares Reasoning in einen kleinen Reasoning-Kern komprimieren lässt, während offenes Wissen und allgemeine Fähigkeiten eine breitere Parameterabdeckung benötigen

Experiment: Verifizierbares Reasoning mit einem 3B-Modell ausgereizt

VibeThinker-3B ist ein kleines dichtes Modell mit 3B Parametern
Ziel ist es zu prüfen, wie weit sich die Leistung bei verifizierbarem Reasoning selbst unter einem strikten Small-Model-Setting steigern lässt
Das Post-Training ist auf dem Spectrum-to-Signal-Paradigma aufgebaut
- curriculum-basiertes überwachtes Fine-Tuning
- Multi-Domain-Reinforcement-Learning
- Offline-Selbstdestillation
Die Ergebnisse setzen die Linie früherer Arbeiten mit 1.5B-Modellen fort

Leistungsbereich in den Evaluierungen

In Bewertungen zu Mathematik, Coding und Befolgung von Anweisungen zeigt das Modell Leistungen auf Frontier-Niveau
- AIME26: 94,3 Punkte
- AIME26 + CLR: 97,1 Punkte
- LiveCodeBench v6: Pass@1 80,2
- aktuelle unveröffentlichte LeetCode-Wettbewerbe: 96,1 % Akzeptanzrate
- IFEval: 93,4 Punkte
CLR steht für Claim-Level Reliability Assessment und ist eine claim-basierte Test-Time-Scaling-Strategie
Zu den Vergleichsmodellen in Abbildung 1 gehören Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 und Claude Opus 4.5
Den berichteten Ergebnissen zufolge kann VibeThinker-3B in eine ähnliche oder höhere Leistungsklasse gelangen als deutlich größere Flaggschiff-Modelle wie DeepSeek V3.2, GLM-5 und Gemini 3 Pro
Im Vergleich der Parametergrößen wird VibeThinker-3B mit 3B ausgewiesen
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
Die Parametric Compression-Coverage Hypothesis betrachtet kompakte Modelle nicht nur als effiziente Alternative für die Bereitstellung, sondern als ergänzenden Weg, innerhalb eines parameterdichten Fähigkeitsbereichs Frontier-Leistung zu erreichen

1 Kommentare

GN⁺ 5 시간 전

Hacker-News-Kommentare

Ich frage mich, ob das einfach nur ein kleines Modell ist, das gut fürs Schlussfolgern trainiert wurde, und ob man es im Grunde darauf reduzieren kann
Es wirkt wie ein kluger Mensch, der ein bestimmtes Thema nicht kennt, aber fleißig recherchiert, wenn man ihm nur Werkzeuge gibt
Es wäre wirklich großartig, wenn man dem Modell nicht alles Wissen beibringen müsste, sondern nur, wie man lernt, sodass es mit einem kleinen Gerät wie einem Pi Zero und einer Internetverbindung selbst klarkommt
- Davon habe ich schon lange geträumt
  Statt das gesamte Wissen in die Parameter zu kodieren, dachte ich mir: Was wäre, wenn man ein Modell gleicher Größe baut, das den Großteil davon fürs Schlussfolgern nutzt?
  Man müsste ihm nur die Fähigkeit geben, im Internet zu recherchieren, und es Sprachspezifikationen, Dokumentation und Best Practices nachschlagen lassen
  Ich verstehe nicht, warum mein Coding-Agent die Einwohnerzahl von New York, ein Käsekuchenrezept oder die Lebensdauer eines Straußes kennen muss
  Gib ihm nur das Mindestmaß an Wissen, das zum Denken und Schlussfolgern nötig ist, und lass es den Rest selbst herausfinden
  Schade ist nur, dass heutige Large Language Models letztlich Token-Vorhersage sind und nicht wirklich so funktionieren
- Eher das Gegenteil
  Schlussfolgern ist ein Nebenprodukt des Trainings auf allem Wissen, und auch in dieser Form „weiß“ das Modell nichts, sondern erzeugt nur Tokens
  Wenn man es nicht mit einem großen Datensatz trainiert, der viele Wörter und plausible Verbindungen zwischen ihnen enthält, kann es keine passenden Verknüpfungen zwischen Wörtern und Sätzen herstellen und somit auch nicht schlussfolgern
  Wenn man ein kleines Modell auf einem sehr kleinen Datensatz trainiert, bekommt man schnell wirre Ausgaben zu sehen
  Es wäre interessant, den Datensatz so zu optimieren, dass mit minimalen Daten maximale Generierung herauskommt, aber für Unternehmen ist es wirtschaftlich viel sinnvoller, einfach noch ein paar GPUs dazuzustellen, als sich für ein State-of-the-Art-Modell so viel Mühe zu machen
- Man kann ein Modell wahrscheinlich darauf trainieren, mit Boolescher Logik, Modallogik und Mathematik recht gut umzugehen, aber bis zu dem Punkt, an dem es tatsächlich „über Dinge nachdenkt“, ist es noch ein weiter Weg
  Schon eine sehr einfache Frage wie: Man legt einen Ball in einen Becher, stellt den Becher umgedreht auf den Tisch und hebt den Becher an, um ihn in eine Kiste zu legen — erfordert Wissen, das nicht explizit in der Aufgabe steht, insbesondere über Schwerkraft
  Wenn man versucht, alle Begriffe streng zu definieren, versinkt man schnell im Sumpf der Komplexität
  Um Anweisungen zu verstehen, braucht man Grundwissen über Dinge, und wenn man nur weiß, wie man schlussfolgert, hat man kein Gefühl dafür, was überhaupt erreicht werden soll
  Zwischen dem riesigen Textspeicher, auf dem das Modell trainiert wird, und der Fähigkeit, ein Thema robust zu durchdenken, gibt es einen ziemlich deutlichen Bruch
  Ich frage mich auch, ob man über die Trainingsreihenfolge einen Pfad vorgeben kann
  Wenn man ihm zum Beispiel mit TinyStories grundlegende Literalität beibringt, dann Mathematik- und Philosophie-Texte, danach Psychologie- und Soziologie-Texte und zuletzt große Datenmengen inklusive Dialogen, Wutposts, Code und Romanen — würde es sich dann stark von einem Modell unterscheiden, das erst Schauspiel, kreatives Schreiben und Fantasy trainiert und danach denselben finalen Großdatensatz bekommt?
  Mich interessiert auch, wie stark die aktuellen Fähigkeiten beeinflussen, wie neue Trainingsdaten kontextualisiert werden
- Tatsächlich ist es eher umgekehrt
  Es wurde darauf trainiert, Probleme durch das Erzeugen langer Chain-of-Thoughts (CoT) zu lösen, und das kann es gut, aber es kann kaum Tools aufrufen und auch kaum mehr als 1–2 Nachrichten verwalten
  Siehe die Warnung ganz oben auf https://huggingface.co/WeiboAI/VibeThinker-3B
- Ich war eine Zeit lang ziemlich auf diese Idee fixiert, und auch die aus Opus-Reasoning destillierten Qwen-Modelle funktionieren ziemlich gut
  Die nächste Front ist aus meiner Sicht, Modelle so zu optimieren, dass sie auf weniger Hardware leistungsfähiger werden
  Besonders spannend wird es, wenn sogar Lernen in Echtzeit möglich wird
Mit den Durchbrüchen bei kleinen, aber starken Modellen wirkt es so, als würden sie die reine Kapitalmacht der Anbieter modernster Modelle überholen
Ich würde gern für die Kleinen mitfiebern, bin aber nicht sicher, ob es dafür noch zu früh ist
Umgekehrt könnte es auch sein, dass die aktuellen Benchmarks nicht effizient genug sind, um Erfolg in realen Entwickler-Workflows abzubilden
- Die Leute werden wohl auch in Zukunft immer wieder von den Fähigkeiten kleiner Modelle überrascht werden
  Wenn man dieses Modell aber in ein Gespräch schickt, wird es wahrscheinlich scheitern und inkonsistent werden
  Dafür ist es beim schlussfolgernden Lösen von Mathematikaufgaben wirklich stark
- Ich habe vor ein paar Tagen angefangen, auf meinem Framework-Desktop qwen3.6:35b lokal laufen zu lassen, und bin ziemlich beeindruckt
  Es läuft gut und erinnert mich an die Claude-Modelle, die ich anfangs genutzt habe
  Es ist das erste lokale Modell für Coding-Agents, das ich ausprobiert habe und das tatsächlich brauchbar funktioniert, deshalb bin ich ziemlich begeistert
- Manchmal fühlt es sich so an, als hätten die Optimierungen gerade erst begonnen
Damit ein Modell irgendeinen Nutzen hat, braucht es selbst bei eng umrissenen Aufgaben ein gewisses grundlegendes Intelligenzniveau
Kann man einem Fünfjährigen das Autofahren beibringen? Einem Zehnjährigen? Einem Zwölfjährigen?
Zum Fahren muss man lesen können, Bedingungen wie Glatteis oder Regen einschätzen und damit rechnen können, dass ein Kind einem hinter einem Ball auf die Straße läuft
Menschen verfügen etwa ab der Mitte der Teenagerjahre über dieses Grundwissen
Auch kleine Modelle brauchen ein gewisses Maß an Grundwissen, um selbst in scheinbar engen Bereichen gut genug zu sein
Sie brauchen vielleicht nicht das ganze seltene Wissen von Frontier-Modellen, aber die Mindestanforderung könnte deutlich höher sein, als man zunächst denkt
- Dass man „zum Fahren lesen können muss“, stimmt überhaupt nicht
  Um die Führerscheinprüfung zu bestehen, muss man vielleicht lesen können, aber weltweit gibt es viele Analphabeten, die trotzdem gut fahren
  Es hat einen Grund, warum gängige Verkehrsschilder so gestaltet sind, dass man sie allein an Form und Farbe erkennen kann
- Es wirkt ziemlich seltsam, grundlegendes menschliches Verhalten auf diese Weise wie ein textbasiertes Computerspiel zu reduzieren
  Autofahren selbst beruht vor allem auf Muskelgedächtnis bei der Bedienung des Fahrzeugs, weshalb Menschen, die viel fahren, auf langen Strecken oft fast wie auf Autopilot unterwegs sind und dabei an ganz andere Dinge denken
  Auch das ist eine Form von Wissen, die man aber nur durch Wiederholung erwirbt
  Natürlich braucht man zum Fahren im Verkehr viel mehr, etwa ein Grundverständnis der Verkehrsregeln, aber der Großteil des Fahrens besteht aus Muskelgedächtnis, Verständnis für das Fahrzeug und der Vorhersage dessen, was als Nächstes passiert
  Dass Menschenaffen in so etwas gut sind, liegt daran, dass sie sich über Millionen Jahre weiterentwickelt haben, indem sie ihren Körper eingesetzt und die Folgen beobachtet haben
  Es gab auch einmal ein GIF von einem Orang-Utan, der einen Golfcart fährt, aber wie echt das war, ist unklar
  Es könnte hilfreicher sein, Modelle nicht als künftige kopierte Menschen zu betrachten, sondern als Werkzeuge mit bestimmten Fähigkeiten in bestimmten Bereichen
  So wie es unsinnig wäre, Opus 4.8 zu bitten, ein Auto zu fahren, wäre es auch unsinnig, von einem kleinen Bildmodell für Edge-Geräte zu erwarten, dass es einen Roman schreibt
  Man sollte sie als Werkzeuge für bestimmte Einsatzzwecke sehen
- Als formale Forschung wäre dieses Thema vermutlich interessant
  Ich denke, die eigentlichen Hürden sind a) Urteilsvermögen und b) körperliche Reflexe und Kraft
  Schon als Kind wusste ich über Glatteis, Schnee und Regen Bescheid
  Ich bin das ganze Jahr über Fahrrad gefahren, und auf Schnee oder nassem Untergrund war ich mir besonders in der Übergangszeit unsicher, wie gut ich das Fahrrad kontrollieren konnte
  Diese Erfahrung ging später ins Lernen des Fahrens im Winter im Norden Kanadas ein, und ich habe dieselben Lektionen auf das Autofahren übertragen
  In Umgebungen ohne Konsequenzen habe ich gesehen, dass Kinder echte Simulatoren oder Fahr-Simulationen in Videospielen erstaunlich präzise bedienen können
  Kinder im Alter von 9 bis 11 Jahren haben Simulationen und Spiele teils deutlich selbstbewusster bedient als erwachsene Fahrer
  Kinder wissen, dass es in der Simulation keine Konsequenzen gibt, und verhalten sich so, wenn keine zusätzliche Motivation vorhanden ist
  Bei Erwachsenen, die regelmäßig fahren, dominieren dagegen selbst beim Spielen Muskelgedächtnis und Vorannahmen die Entscheidungsfindung
  Ich frage mich, wie viel Training und Exposition nötig sind, damit Kinder den Mangel an Bewusstsein für die realen Grenzen und Folgen des Fahrens und von Fahrfehlern überwinden, und umgekehrt, wie viel nötig ist, damit ein erfahrener Fahrer, der aber neu in Spielen ist, seine reale Erfahrung nicht mehr auf eine folgenlose Simulation überträgt
- Mit zehn geht es definitiv, und mit fünf ist es grenzwertig, aber nicht unrealistisch
  Lesefähigkeit ist zum Autofahren nicht nötig
  Zusammen mit anderen Menschen auf öffentlichen Straßen zu fahren, ist allerdings eine völlig andere Geschichte
- Um richtig zu fahren, braucht man auch eine gute Balance zwischen Exploration und Exploitation
  Ein Dreijähriger würde in Situationen, in denen Fehler gefährlich sind, wahrscheinlich zu viel explorieren
  Dafür braucht es nicht nur Wissen, sondern auch Kontrollsysteme, die sich zusammen mit dem präfrontalen Kortex entwickeln
  Große Sprachmodelle beherrschen eine solche Kontrolle bislang noch nicht besonders gut
Man sollte beachten, dass dieses Ergebnis nur für Python gilt
In anderen Sprachen dürfte es nicht annähernd so gut abschneiden
Es ist erfreulich, dass mehr domänenspezifische kleine Sprachmodelle erscheinen
Ein auf Programmierung spezialisiertes Mixture-of-Experts-(MoE)-Modell könnte über mehrere Sprachen hinweg gut funktionieren
- Wenn es funktionierenden Python-Code schreibt, statt einen Java-Programmierer zu imitieren und alles mit Klassen und Accessors vollzustopfen, ist es schon besser als Opus
- Es gibt viel Verwirrung darüber, worauf dieses Modell tatsächlich ausgelegt ist
  Dieses Modell ist ein günstiger Spezialist für verifizierbare Reasoning-Aufgaben in einer geschlossenen Welt wie Mathematik oder in sich abgeschlossene Coding-Probleme
  „Geschlossene Welt“ bedeutet, dass alle nötigen Informationen bereits im Kontext enthalten sind
  Es ist kein Tool-Using-Agent, der fehlenden Kontext aufspürt
  „Verifizierbar“ bedeutet, dass das Erzeugen der Antwort schwierig, ihre Überprüfung aber einfach ist
  Deshalb eignet es sich nicht für offene Recherche, agentische Aufgaben über ganze Repositories, faktische Fragen-und-Antworten oder SVG-Erzeugung
  Es ist eher ein kleines Reasoning-Modul für klar abgegrenzte Probleme
Das Interessante an einem so kleinen Modell ist, dass es wahrscheinlich auf einen einzelnen Taalas-Chip passt
HC1 führt bereits ein Llama-3.1-8B-Modell aus
Wir sind bereits an einem Punkt, an dem man auf ASICs einigermaßen brauchbares Reasoning mit enormer Geschwindigkeit laufen lassen kann
- Es wäre gewaltig, wenn man auf Taalas ein 8B-Modell, das seine Ausgaben durch Nachdenken wirklich stark verbessert, mit 16K Tokens pro Sekunde laufen lassen könnte
Ich teste dieses Modell gerade als Ersatz für GPT-5 nano bei Source-Code-Sicherheitsreviews und habe damit bereits einigen Erfolg
Es läuft mit vLLM auf einer RTX 3090 mit 24 GB VRAM
Wie in der Model Card beschrieben, ist es bei strukturierten Ausgaben nicht gut, aber ich umgehe das in meinem Test-Harness
- Kann man strukturierte Ausgabe nicht per Constraint Generation erzwingen?
- Mich würde interessieren, wie du das umgehst
Ich habe versucht, den klassischen Pelikan-SVG zu erzeugen, aber es wurden nur Rechtecke und schwarze Kreise angezeigt — ein katastrophaler Fehlschlag.
- Das scheint ein vorhersehbares Ergebnis zu sein.
  Der entscheidende Punkt ist wohl, dass Wissen wie „Ein Pelikan hat Flügel“ reduziert wurde, während die Kernfähigkeit zum Schlussfolgern erhalten blieb.
  „Diese Entdeckung stützt die Hypothese der Parameterkompression und -abdeckung. Diese Hypothese besagt, dass verifizierbares Schlussfolgern in einen kleinen Reasoning-Kern komprimiert werden kann, während Open-Domain-Wissen und allgemeine Fähigkeiten eine breite Parameterabdeckung über Fakten, Konzepte und Long-Tail-Szenarien hinweg erfordern.“
- Versuch es noch einmal, aber erkläre sorgfältig, was ein Fahrrad und ein Pelikan sind und wie ein Pelikan auf einem Fahrrad sitzt.
  Gib dann die SVG-Tags und die Dokumentationsreferenzen an, die verwendet werden sollen.
  Mein Ergebnis ist hier: https://9ol.es/tmp/pelican.png
  Der Prompt ist hier: https://9ol.es/tmp/prompt_pelican.txt
  Das verwendete Modell ist prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M.
- Ist das nicht eher ein Modell zum Schlussfolgern als zur Kunstgenerierung?
Ich kann den Bewertungen und Benchmarks noch nicht trauen.
Wie ließe sich beweisen, dass der Testdatensatz wirklich aus unveröffentlichten Beispielen bestand?
Ich denke, der einzige Weg zu beweisen, dass diese Modelle so gut sind wie behauptet, ist abzuwarten, ob sie tatsächlich übernommen werden.
- Um das zu beweisen, müsste man letztlich das Blackbox-Problem lösen und damit dem Ziel von Transparenz näherkommen.
  Wenn man so etwas wie einen Reasoner implementieren will, muss man die dafür bestmögliche Architektur entwerfen, implementieren und dann testen.
Es ist wirklich schön zu sehen, dass solche leistungsfähigen kleinen Sprachmodelle erscheinen.
Allerdings steht auf Hugging Face Folgendes:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Man kann es also nicht einfach an ein Coding-Harness wie pi.dev anschließen und verwenden.
Es soll also besser schlussfolgern als Opus 4.5?
Prompt: „Wenn A zu B geht und B dann weiter zu C geht, kann A dann etwas an C schicken?“
Die Antwort war folgende:
„Man muss es möglichst passend interpretieren. Dieser Satz könnte sich auf das Versenden von etwas beziehen, etwa das Weiterreichen eines Balls, und auf ein Beziehungsrätsel.
Szenario: A gibt B etwas, und B gibt es an C weiter.
Frage: Kann A dasselbe auch C geben?
Antwort: Das ist nur möglich, wenn A eine zweite Kopie bekommen kann, zum Beispiel wenn der Gegenstand dupliziert wurde. Andernfalls besitzt A ihn nach der Übergabe an B nicht mehr, sodass A ihn ohne Kopie nicht an C ‚schicken‘ kann.“
Daneben gab es noch jede Menge unnötige Erklärungen und „Szenarien“, die noch weniger Sinn ergaben.
- Ich habe dieselbe Anfrage ebenfalls ausprobiert; die Ausgabe ist riesig, aber es scheint, als würde das Modell die Mehrdeutigkeit des Satzes durch Schlussfolgern auflösen.
  Die richtige Antwort trifft es trotzdem.
  Und wenn man die zur Antwort benötigte Menge an Gleitkommaoperationen mit Opus vergleicht, ist das meiner Meinung nach immer noch ein Nettogewinn.
  Mein Bauchgefühl ist, dass in einem Modell von Opus-Größe Abkürzungen für den Umgang mit solchen mehrdeutigen Fällen bereits einkodiert sind, während dieses Modell eher ein Programm gelernt hat, das Grenzfälle spontan erschließt.
  Das kommt dem Unterschied zwischen kristalliner und fluider Intelligenz nahe.
  Frontier-Modelle erinnern Wahrscheinlichkeiten, VibeThinker scheint sie on the fly zu berechnen.
- In der Beschreibung der Qualitätskontrolle steht Folgendes:
  „Mehrstufige Qualitätskontrolle.“
  „LLM-basierte Qualitätsfilterung von Anfragen. Wir verwenden leistungsstarke große Sprachmodelle, um die Qualität von Anfragen zu bewerten, und filtern Samples heraus, deren Erklärung unvollständig ist, deren Bedingungen unvernünftig sind, deren Logik fehlerhaft ist oder die die angestrebten Wissenspunkte nicht wirksam bewerten können.“
- Selbst ich als Mensch weiß nicht, wie ich diesen Prompt interpretieren soll.
- Wenn A zu B geht und B dann weiter zu C geht, kennt C dann A?

VibeThinker-3B: 3B-Modell übertrifft mit SFT+GRPO die Inferenzleistung von Opus 4.5

Experiment: Verifizierbares Reasoning mit einem 3B-Modell ausgereizt

Leistungsbereich in den Evaluierungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare