- VibeThinker-3B ist ein kleines dichtes Modell, das untersucht, wie weit sich verifizierbares Reasoning mit nur 3B Parametern komprimieren lässt
- Die Trainingspipeline kombiniert auf Basis des Spectrum-to-Signal-Post-Trainings curriculum-basiertes überwachtes Fine-Tuning, Multi-Domain-Reinforcement-Learning und Offline-Selbstdestillation
- Auf AIME26 erreichte es 94,3 Punkte, mit CLR 97,1 Punkte; außerdem wurden 80,2 Pass@1 auf LiveCodeBench v6 und eine Akzeptanzrate von 96,1 % bei aktuellen unveröffentlichten LeetCode-Wettbewerben berichtet
- Trotz der Einordnung in eine ähnliche oder höhere Leistungsklasse als deutlich größere Flaggschiff-Modelle wie DeepSeek V3.2, GLM-5 und Gemini 3 Pro hält es mit 93,4 Punkten auf IFEval eine strenge Instruktionskontrolle aufrecht
- Die Parametric Compression-Coverage Hypothesis geht davon aus, dass sich verifizierbares Reasoning in einen kleinen Reasoning-Kern komprimieren lässt, während offenes Wissen und allgemeine Fähigkeiten eine breitere Parameterabdeckung benötigen
Experiment: Verifizierbares Reasoning mit einem 3B-Modell ausgereizt
- VibeThinker-3B ist ein kleines dichtes Modell mit 3B Parametern
- Ziel ist es zu prüfen, wie weit sich die Leistung bei verifizierbarem Reasoning selbst unter einem strikten Small-Model-Setting steigern lässt
- Das Post-Training ist auf dem Spectrum-to-Signal-Paradigma aufgebaut
- curriculum-basiertes überwachtes Fine-Tuning
- Multi-Domain-Reinforcement-Learning
- Offline-Selbstdestillation
- Die Ergebnisse setzen die Linie früherer Arbeiten mit 1.5B-Modellen fort
Leistungsbereich in den Evaluierungen
- In Bewertungen zu Mathematik, Coding und Befolgung von Anweisungen zeigt das Modell Leistungen auf Frontier-Niveau
- AIME26: 94,3 Punkte
- AIME26 + CLR: 97,1 Punkte
- LiveCodeBench v6: Pass@1 80,2
- aktuelle unveröffentlichte LeetCode-Wettbewerbe: 96,1 % Akzeptanzrate
- IFEval: 93,4 Punkte
- CLR steht für Claim-Level Reliability Assessment und ist eine claim-basierte Test-Time-Scaling-Strategie
- Zu den Vergleichsmodellen in Abbildung 1 gehören Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 und Claude Opus 4.5
- Den berichteten Ergebnissen zufolge kann VibeThinker-3B in eine ähnliche oder höhere Leistungsklasse gelangen als deutlich größere Flaggschiff-Modelle wie DeepSeek V3.2, GLM-5 und Gemini 3 Pro
- Im Vergleich der Parametergrößen wird VibeThinker-3B mit 3B ausgewiesen
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- Die Parametric Compression-Coverage Hypothesis betrachtet kompakte Modelle nicht nur als effiziente Alternative für die Bereitstellung, sondern als ergänzenden Weg, innerhalb eines parameterdichten Fähigkeitsbereichs Frontier-Leistung zu erreichen
1 Kommentare
Hacker-News-Kommentare
Ich frage mich, ob das einfach nur ein kleines Modell ist, das gut fürs Schlussfolgern trainiert wurde, und ob man es im Grunde darauf reduzieren kann
Es wirkt wie ein kluger Mensch, der ein bestimmtes Thema nicht kennt, aber fleißig recherchiert, wenn man ihm nur Werkzeuge gibt
Es wäre wirklich großartig, wenn man dem Modell nicht alles Wissen beibringen müsste, sondern nur, wie man lernt, sodass es mit einem kleinen Gerät wie einem Pi Zero und einer Internetverbindung selbst klarkommt
Statt das gesamte Wissen in die Parameter zu kodieren, dachte ich mir: Was wäre, wenn man ein Modell gleicher Größe baut, das den Großteil davon fürs Schlussfolgern nutzt?
Man müsste ihm nur die Fähigkeit geben, im Internet zu recherchieren, und es Sprachspezifikationen, Dokumentation und Best Practices nachschlagen lassen
Ich verstehe nicht, warum mein Coding-Agent die Einwohnerzahl von New York, ein Käsekuchenrezept oder die Lebensdauer eines Straußes kennen muss
Gib ihm nur das Mindestmaß an Wissen, das zum Denken und Schlussfolgern nötig ist, und lass es den Rest selbst herausfinden
Schade ist nur, dass heutige Large Language Models letztlich Token-Vorhersage sind und nicht wirklich so funktionieren
Schlussfolgern ist ein Nebenprodukt des Trainings auf allem Wissen, und auch in dieser Form „weiß“ das Modell nichts, sondern erzeugt nur Tokens
Wenn man es nicht mit einem großen Datensatz trainiert, der viele Wörter und plausible Verbindungen zwischen ihnen enthält, kann es keine passenden Verknüpfungen zwischen Wörtern und Sätzen herstellen und somit auch nicht schlussfolgern
Wenn man ein kleines Modell auf einem sehr kleinen Datensatz trainiert, bekommt man schnell wirre Ausgaben zu sehen
Es wäre interessant, den Datensatz so zu optimieren, dass mit minimalen Daten maximale Generierung herauskommt, aber für Unternehmen ist es wirtschaftlich viel sinnvoller, einfach noch ein paar GPUs dazuzustellen, als sich für ein State-of-the-Art-Modell so viel Mühe zu machen
Schon eine sehr einfache Frage wie: Man legt einen Ball in einen Becher, stellt den Becher umgedreht auf den Tisch und hebt den Becher an, um ihn in eine Kiste zu legen — erfordert Wissen, das nicht explizit in der Aufgabe steht, insbesondere über Schwerkraft
Wenn man versucht, alle Begriffe streng zu definieren, versinkt man schnell im Sumpf der Komplexität
Um Anweisungen zu verstehen, braucht man Grundwissen über Dinge, und wenn man nur weiß, wie man schlussfolgert, hat man kein Gefühl dafür, was überhaupt erreicht werden soll
Zwischen dem riesigen Textspeicher, auf dem das Modell trainiert wird, und der Fähigkeit, ein Thema robust zu durchdenken, gibt es einen ziemlich deutlichen Bruch
Ich frage mich auch, ob man über die Trainingsreihenfolge einen Pfad vorgeben kann
Wenn man ihm zum Beispiel mit TinyStories grundlegende Literalität beibringt, dann Mathematik- und Philosophie-Texte, danach Psychologie- und Soziologie-Texte und zuletzt große Datenmengen inklusive Dialogen, Wutposts, Code und Romanen — würde es sich dann stark von einem Modell unterscheiden, das erst Schauspiel, kreatives Schreiben und Fantasy trainiert und danach denselben finalen Großdatensatz bekommt?
Mich interessiert auch, wie stark die aktuellen Fähigkeiten beeinflussen, wie neue Trainingsdaten kontextualisiert werden
Es wurde darauf trainiert, Probleme durch das Erzeugen langer Chain-of-Thoughts (CoT) zu lösen, und das kann es gut, aber es kann kaum Tools aufrufen und auch kaum mehr als 1–2 Nachrichten verwalten
Siehe die Warnung ganz oben auf https://huggingface.co/WeiboAI/VibeThinker-3B
Die nächste Front ist aus meiner Sicht, Modelle so zu optimieren, dass sie auf weniger Hardware leistungsfähiger werden
Besonders spannend wird es, wenn sogar Lernen in Echtzeit möglich wird
Mit den Durchbrüchen bei kleinen, aber starken Modellen wirkt es so, als würden sie die reine Kapitalmacht der Anbieter modernster Modelle überholen
Ich würde gern für die Kleinen mitfiebern, bin aber nicht sicher, ob es dafür noch zu früh ist
Umgekehrt könnte es auch sein, dass die aktuellen Benchmarks nicht effizient genug sind, um Erfolg in realen Entwickler-Workflows abzubilden
Wenn man dieses Modell aber in ein Gespräch schickt, wird es wahrscheinlich scheitern und inkonsistent werden
Dafür ist es beim schlussfolgernden Lösen von Mathematikaufgaben wirklich stark
Es läuft gut und erinnert mich an die Claude-Modelle, die ich anfangs genutzt habe
Es ist das erste lokale Modell für Coding-Agents, das ich ausprobiert habe und das tatsächlich brauchbar funktioniert, deshalb bin ich ziemlich begeistert
Damit ein Modell irgendeinen Nutzen hat, braucht es selbst bei eng umrissenen Aufgaben ein gewisses grundlegendes Intelligenzniveau
Kann man einem Fünfjährigen das Autofahren beibringen? Einem Zehnjährigen? Einem Zwölfjährigen?
Zum Fahren muss man lesen können, Bedingungen wie Glatteis oder Regen einschätzen und damit rechnen können, dass ein Kind einem hinter einem Ball auf die Straße läuft
Menschen verfügen etwa ab der Mitte der Teenagerjahre über dieses Grundwissen
Auch kleine Modelle brauchen ein gewisses Maß an Grundwissen, um selbst in scheinbar engen Bereichen gut genug zu sein
Sie brauchen vielleicht nicht das ganze seltene Wissen von Frontier-Modellen, aber die Mindestanforderung könnte deutlich höher sein, als man zunächst denkt
Um die Führerscheinprüfung zu bestehen, muss man vielleicht lesen können, aber weltweit gibt es viele Analphabeten, die trotzdem gut fahren
Es hat einen Grund, warum gängige Verkehrsschilder so gestaltet sind, dass man sie allein an Form und Farbe erkennen kann
Autofahren selbst beruht vor allem auf Muskelgedächtnis bei der Bedienung des Fahrzeugs, weshalb Menschen, die viel fahren, auf langen Strecken oft fast wie auf Autopilot unterwegs sind und dabei an ganz andere Dinge denken
Auch das ist eine Form von Wissen, die man aber nur durch Wiederholung erwirbt
Natürlich braucht man zum Fahren im Verkehr viel mehr, etwa ein Grundverständnis der Verkehrsregeln, aber der Großteil des Fahrens besteht aus Muskelgedächtnis, Verständnis für das Fahrzeug und der Vorhersage dessen, was als Nächstes passiert
Dass Menschenaffen in so etwas gut sind, liegt daran, dass sie sich über Millionen Jahre weiterentwickelt haben, indem sie ihren Körper eingesetzt und die Folgen beobachtet haben
Es gab auch einmal ein GIF von einem Orang-Utan, der einen Golfcart fährt, aber wie echt das war, ist unklar
Es könnte hilfreicher sein, Modelle nicht als künftige kopierte Menschen zu betrachten, sondern als Werkzeuge mit bestimmten Fähigkeiten in bestimmten Bereichen
So wie es unsinnig wäre, Opus 4.8 zu bitten, ein Auto zu fahren, wäre es auch unsinnig, von einem kleinen Bildmodell für Edge-Geräte zu erwarten, dass es einen Roman schreibt
Man sollte sie als Werkzeuge für bestimmte Einsatzzwecke sehen
Ich denke, die eigentlichen Hürden sind a) Urteilsvermögen und b) körperliche Reflexe und Kraft
Schon als Kind wusste ich über Glatteis, Schnee und Regen Bescheid
Ich bin das ganze Jahr über Fahrrad gefahren, und auf Schnee oder nassem Untergrund war ich mir besonders in der Übergangszeit unsicher, wie gut ich das Fahrrad kontrollieren konnte
Diese Erfahrung ging später ins Lernen des Fahrens im Winter im Norden Kanadas ein, und ich habe dieselben Lektionen auf das Autofahren übertragen
In Umgebungen ohne Konsequenzen habe ich gesehen, dass Kinder echte Simulatoren oder Fahr-Simulationen in Videospielen erstaunlich präzise bedienen können
Kinder im Alter von 9 bis 11 Jahren haben Simulationen und Spiele teils deutlich selbstbewusster bedient als erwachsene Fahrer
Kinder wissen, dass es in der Simulation keine Konsequenzen gibt, und verhalten sich so, wenn keine zusätzliche Motivation vorhanden ist
Bei Erwachsenen, die regelmäßig fahren, dominieren dagegen selbst beim Spielen Muskelgedächtnis und Vorannahmen die Entscheidungsfindung
Ich frage mich, wie viel Training und Exposition nötig sind, damit Kinder den Mangel an Bewusstsein für die realen Grenzen und Folgen des Fahrens und von Fahrfehlern überwinden, und umgekehrt, wie viel nötig ist, damit ein erfahrener Fahrer, der aber neu in Spielen ist, seine reale Erfahrung nicht mehr auf eine folgenlose Simulation überträgt
Lesefähigkeit ist zum Autofahren nicht nötig
Zusammen mit anderen Menschen auf öffentlichen Straßen zu fahren, ist allerdings eine völlig andere Geschichte
Ein Dreijähriger würde in Situationen, in denen Fehler gefährlich sind, wahrscheinlich zu viel explorieren
Dafür braucht es nicht nur Wissen, sondern auch Kontrollsysteme, die sich zusammen mit dem präfrontalen Kortex entwickeln
Große Sprachmodelle beherrschen eine solche Kontrolle bislang noch nicht besonders gut
Man sollte beachten, dass dieses Ergebnis nur für Python gilt
In anderen Sprachen dürfte es nicht annähernd so gut abschneiden
Es ist erfreulich, dass mehr domänenspezifische kleine Sprachmodelle erscheinen
Ein auf Programmierung spezialisiertes Mixture-of-Experts-(MoE)-Modell könnte über mehrere Sprachen hinweg gut funktionieren
Dieses Modell ist ein günstiger Spezialist für verifizierbare Reasoning-Aufgaben in einer geschlossenen Welt wie Mathematik oder in sich abgeschlossene Coding-Probleme
„Geschlossene Welt“ bedeutet, dass alle nötigen Informationen bereits im Kontext enthalten sind
Es ist kein Tool-Using-Agent, der fehlenden Kontext aufspürt
„Verifizierbar“ bedeutet, dass das Erzeugen der Antwort schwierig, ihre Überprüfung aber einfach ist
Deshalb eignet es sich nicht für offene Recherche, agentische Aufgaben über ganze Repositories, faktische Fragen-und-Antworten oder SVG-Erzeugung
Es ist eher ein kleines Reasoning-Modul für klar abgegrenzte Probleme
Das Interessante an einem so kleinen Modell ist, dass es wahrscheinlich auf einen einzelnen Taalas-Chip passt
HC1 führt bereits ein Llama-3.1-8B-Modell aus
Wir sind bereits an einem Punkt, an dem man auf ASICs einigermaßen brauchbares Reasoning mit enormer Geschwindigkeit laufen lassen kann
Ich teste dieses Modell gerade als Ersatz für GPT-5 nano bei Source-Code-Sicherheitsreviews und habe damit bereits einigen Erfolg
Es läuft mit vLLM auf einer RTX 3090 mit 24 GB VRAM
Wie in der Model Card beschrieben, ist es bei strukturierten Ausgaben nicht gut, aber ich umgehe das in meinem Test-Harness
Ich habe versucht, den klassischen Pelikan-SVG zu erzeugen, aber es wurden nur Rechtecke und schwarze Kreise angezeigt — ein katastrophaler Fehlschlag.
Der entscheidende Punkt ist wohl, dass Wissen wie „Ein Pelikan hat Flügel“ reduziert wurde, während die Kernfähigkeit zum Schlussfolgern erhalten blieb.
„Diese Entdeckung stützt die Hypothese der Parameterkompression und -abdeckung. Diese Hypothese besagt, dass verifizierbares Schlussfolgern in einen kleinen Reasoning-Kern komprimiert werden kann, während Open-Domain-Wissen und allgemeine Fähigkeiten eine breite Parameterabdeckung über Fakten, Konzepte und Long-Tail-Szenarien hinweg erfordern.“
Gib dann die SVG-Tags und die Dokumentationsreferenzen an, die verwendet werden sollen.
Mein Ergebnis ist hier: https://9ol.es/tmp/pelican.png
Der Prompt ist hier: https://9ol.es/tmp/prompt_pelican.txt
Das verwendete Modell ist
prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M.Ich kann den Bewertungen und Benchmarks noch nicht trauen.
Wie ließe sich beweisen, dass der Testdatensatz wirklich aus unveröffentlichten Beispielen bestand?
Ich denke, der einzige Weg zu beweisen, dass diese Modelle so gut sind wie behauptet, ist abzuwarten, ob sie tatsächlich übernommen werden.
Wenn man so etwas wie einen Reasoner implementieren will, muss man die dafür bestmögliche Architektur entwerfen, implementieren und dann testen.
Es ist wirklich schön zu sehen, dass solche leistungsfähigen kleinen Sprachmodelle erscheinen.
Allerdings steht auf Hugging Face Folgendes:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Man kann es also nicht einfach an ein Coding-Harness wie pi.dev anschließen und verwenden.
Es soll also besser schlussfolgern als Opus 4.5?
Prompt: „Wenn A zu B geht und B dann weiter zu C geht, kann A dann etwas an C schicken?“
Die Antwort war folgende:
„Man muss es möglichst passend interpretieren. Dieser Satz könnte sich auf das Versenden von etwas beziehen, etwa das Weiterreichen eines Balls, und auf ein Beziehungsrätsel.
Szenario: A gibt B etwas, und B gibt es an C weiter.
Frage: Kann A dasselbe auch C geben?
Antwort: Das ist nur möglich, wenn A eine zweite Kopie bekommen kann, zum Beispiel wenn der Gegenstand dupliziert wurde. Andernfalls besitzt A ihn nach der Übergabe an B nicht mehr, sodass A ihn ohne Kopie nicht an C ‚schicken‘ kann.“
Daneben gab es noch jede Menge unnötige Erklärungen und „Szenarien“, die noch weniger Sinn ergaben.
Die richtige Antwort trifft es trotzdem.
Und wenn man die zur Antwort benötigte Menge an Gleitkommaoperationen mit Opus vergleicht, ist das meiner Meinung nach immer noch ein Nettogewinn.
Mein Bauchgefühl ist, dass in einem Modell von Opus-Größe Abkürzungen für den Umgang mit solchen mehrdeutigen Fällen bereits einkodiert sind, während dieses Modell eher ein Programm gelernt hat, das Grenzfälle spontan erschließt.
Das kommt dem Unterschied zwischen kristalliner und fluider Intelligenz nahe.
Frontier-Modelle erinnern Wahrscheinlichkeiten, VibeThinker scheint sie on the fly zu berechnen.
„Mehrstufige Qualitätskontrolle.“
„LLM-basierte Qualitätsfilterung von Anfragen. Wir verwenden leistungsstarke große Sprachmodelle, um die Qualität von Anfragen zu bewerten, und filtern Samples heraus, deren Erklärung unvollständig ist, deren Bedingungen unvernünftig sind, deren Logik fehlerhaft ist oder die die angestrebten Wissenspunkte nicht wirksam bewerten können.“