S1: Ein 6-Dollar-Konkurrent für R1?

(timkellogg.me)

14 Punkte von GN⁺ 2025-02-06 | 2 Kommentare | Auf WhatsApp teilen

Das am 3. Februar veröffentlichte neue Paper „s1: Simple test-time scaling“ sorgt im AI-Bereich für Aufmerksamkeit
Der wichtige Punkt ist weniger das Modell selbst als vielmehr, dass es andeutet, dass es im AI-Bereich zu großen Fortschritten kommen könnte
Dieses Modell erreicht zwar nicht den aktuellen Stand der Technik (SOTA), ist aber ein kleines Modell, das sogar auf einem Laptop laufen kann
Wichtig ist außerdem, dass es ohne große Komplexität dabei hilft zu verstehen, wie diese Technik funktioniert

Skalierung der Inferenz: „Warte“ für mich!

OpenAI hat mit einer Grafik die These vertreten: „Je länger die Inferenzzeit, desto besser die LLM-Leistung“
Grundsätzlich gilt: Wenn ein LLM länger „nachdenken“ kann, kann es eine höhere Leistung erzielen
Das Problem war, wie man kontrolliert, dass das Modell vor einer Antwort länger „nachdenken“ kann, und es fehlte an Erklärungen, wie das konkret möglich ist
Das s1-Paper beschreibt diesen Teil im Detail, und das ist interessant
> Wenn ein LLM beim Schlussfolgern „denkt“, wird sein interner Denkprozess in den Tags <think> und </think> abgelegt, und sobald </think> erscheint, wird es darauf trainiert, für die endgültige Antwort zu einem selbstsicheren und autoritativen Ton zu wechseln
Im s1-Paper wird eine einfache Technik beschrieben, bei der "</think>" zwangsweise durch "Wait" ersetzt wird, damit das Modell länger „grübelt“
- Durch das Entfernen oder Ersetzen von "</think>" wird das Modell dazu gebracht, weiterzudenken
- Umgekehrt ist es auch möglich, die Inferenz kurz abzuschneiden, indem man plötzlich "</think>" einfügt
Auf diese Weise wurden Modelle wie o3-mini-low und o3-mini-high vermutlich so trainiert, dass unterschiedliche durchschnittliche Inferenzzeiten gelten
- Wahrscheinlich wurden drei Modelle trainiert, jeweils mit unterschiedlicher durchschnittlicher Denkzeit, die während des Trainings gemessen wurde
- Letztlich beginnt der Trainingsprozess, dieses Verhalten in den Modellgewichten zu kodieren

Verbindung zu Entropix

Die im s1-Paper vorgestellte „Wait“-Technik unterscheidet sich nicht grundlegend von dem Ansatz, den Entropix verfolgte
Entropix ist eine Technik, die die Entropie und Varentropie von Logits und Attention betrachtet und dabei die Token-Auswahl verändert
- Offenbar wurde versucht, das Modell mit Tokens wie „Wait“ dazu zu bringen, seine eigene Antwort noch einmal zu überdenken
Es ist zu erwarten, dass sich ein solcher Ansatz sowohl zur Inferenzzeit als auch während des Trainings anwenden lässt

Extreme Datensparsamkeit

Dass behauptet wird, das s1-Modell sei für nur 6 Dollar entwickelt worden, liegt im Wesentlichen daran, dass ein kleines Modell und nur eine geringe Datenmenge für das Training verwendet wurden
Von 56K Beispieldaten wurden nur die wertvollsten 1K ausgewählt und genutzt
- Das Fazit lautet, dass zusätzliche Daten die Modellleistung überhaupt nicht verbessert haben
Da es sich um ein Modell mit 32B Parametern handelt, kann es auch auf einem Laptop laufen
Es wurden 16 NVIDIA H100 etwa 26 Minuten lang genutzt; die Kosten dafür werden auf rund 6 Dollar geschätzt
Weil die Kosten niedrig waren, konnten viele Experimente (Ablations) durchgeführt werden, und tatsächlich wurde wiederholt vollständig neu trainiert, wobei verschiedene Variablen schrittweise verändert wurden
- Beispiel: Es wurde direkt gemessen, welcher Token zwischen „Wait“ und „Hmm“ wirksamer ist
- Auch wurde getestet, welche Teile der zentralen Beispieldaten das aussagekräftigste Signal liefern

Geopolitische Implikationen

Es gibt die Sichtweise, dass AI eng mit der nationalen Sicherheit verknüpft ist
Daher investieren Unternehmen wie OpenAI oder Anthropic enorme Budgets
Innovationen zur Kostensenkung wie s1 sind erschienen, doch ebenso wichtig ist, dass sich mit großem Kapital entsprechend viel mehr Versuche gleichzeitig durchführen lassen
Es gibt auch Stimmen, die argumentieren, dass noch größere Investitionen nötig seien, um das Tempo der AI-Entwicklung weiter zu erhöhen

Distealing (unerlaubte Modelldestillation)

Das s1-Dataset ist im Grunde das Ergebnis einer Destillation, bei der der Thought Trace eines anderen Modells (Qwen2.5) genutzt wurde
OpenAI vermutet, dass DeepSeek sein Modell o1 unerlaubt destilliert und daraus das Modell V3 erstellt hat
Tatsächlich wird es jedoch immer schwieriger, Destillation zu verhindern
- Etwa 1.000 Beispiele kann auch eine Einzelperson ohne Weiteres sammeln
Dass OpenAI das o3-Modell zuletzt nicht direkt verteilt, sondern in Form eines Agenten veröffentlicht hat, wirkt ebenfalls wie ein Versuch, eine solche unerlaubte Destillation zu verhindern

Fazit

Das Auftauchen von s1 ist ein gutes Beispiel dafür, wie schnell sich AI im offenen Bereich weiterentwickelt
Unternehmen wie OpenAI und Anthropic werden mit deutlich mehr Rechenressourcen wahrscheinlich noch schnellere Fortschritte erzielen
s1 ist keine direkte Kopie von R1 oder o1, sondern deutet darauf hin, dass sich auch allein mit SFT (Supervised Fine Tuning) statt RL ähnliche Möglichkeiten eröffnen können
Es wird erwartet, dass 2025 noch größere Innovationen bringt

2 Kommentare

hoonix 2025-02-06

Die verdrehte Formulierung, die Distillation zu Distealing macht, ist wirklich witzig!

GN⁺ 2025-02-06

Hacker-News-Kommentare

Die Erweiterung des Reasonings durch den „Wait“-Hack ist interessant. Dass so eine einfache Methode die Leistung beeinflussen kann, lässt Fortschritte in der Informatik fast wie das Wirken eines Zauberspruchs erscheinen. Ich frage mich, wie man überhaupt anfangen kann, in solchen Mustern zu denken
Wenn der Gedankengang dem Modell eine temporäre „Schicht“ gibt und als Puffer zur Verarbeitung von Text dient, frage ich mich, ob es sinnvoll wäre, diesen Puffer als separaten Kontext mit eigenem FNN und Attention-Mechanismus aufzubauen. Das könnte in Verbindung mit Mikroprozessen, die in natürlicher Sprache beschrieben werden, eine dichtere Darstellung von „Gedanken“ liefern
CoT ist eine weithin bekannte Technik, aber DeepSeek hat sich wegen Compute-Beschränkungen darauf konzentriert, Optimierungen bei Speicher, Bandbreite und Parallelität zu finden. Ihre Optimierungen auf Infrastruktur- und Software-Ebene sind bemerkenswert
Ich denke, dass die aktuellen Benchmarks nicht stark genug sind, und dass US-LLM-Labs den Mangel an Infrastruktur- und Hardware-Optimierung wohl erkennen. RL-Level und Parent-Training werden noch wichtiger werden
Interessant ist, dass Methoden, mit denen experimentell per AI-Hacking gearbeitet wurde, auch in Labs verwendet werden. Ich habe die Methode genutzt, R1 durch Ersetzen mit „Okay“ weiterdenken zu lassen
Ich habe Tims Blog als Lesezeichen gespeichert. Die Fortschritte im Bereich AI und neuronale Netze sind erstaunlich. Persönlich habe ich Schwierigkeiten, mit schwachen On-Device-Modellen LLM-basierte Agenten zu bauen
10.000 H100 zu besitzen bedeutet, dass man 625-mal mehr Experimente durchführen kann als mit S1. Große Unternehmen neigen dazu, Compute-Ressourcen zu verschwenden
Die Methode zur Steuerung der Ausgabelänge von Reasoning-Modellen ist interessant. Es wurde ein Weg gefunden, durch Ersetzen mit „Wait“ CoT einzuschleusen und Jailbreaks zu erleichtern
Hier wird der Link zur Originalarbeit über S1 bereitgestellt
In großen Organisationen kann man nicht viele Experimente durchführen, und die Mitarbeitenden konzentrieren sich darauf, schnell Ergebnisse zu liefern. Für kurzfristige Gewinne wird überhastet gearbeitet
Die Ausgaben eines LLM zu formen ist wie das Erschaffen einer Skulptur. Man muss das Modell in eine Game-Loop setzen und bei jedem Tick interagieren, um das gewünschte Ergebnis zu erhalten. Der Hunger nach Compute-Ressourcen wird anhalten