DeepScaleR: Mit RL ein 1.5B-Modell trainieren, das O1-Preview übertrifft

(pretty-radio-b75.notion.site)

5 Punkte von GN⁺ 2025-02-12 | 1 Kommentare | Auf WhatsApp teilen

DeepScaleR-1.5B-Preview: ein mit Reinforcement Learning (RL) feinabgestimmtes Modell auf Basis von Deepseek-R1-Distilled-Qwen-1.5B
Erreicht 43,1 % AIME2024-Pass@1-Genauigkeit (gegenüber dem Basismodell +14,3 %),
→ übertrifft die Leistung von OpenAI o1-preview!
Training mit 3.800 A100-GPU-Stunden ($4500) → 18,42-mal effizienteres RL-Scaling im Vergleich zu 70.000 A100-GPU-Stunden
Datensatz, Code und Trainingslogs als Open Source veröffentlicht → jede:r kann mit RL an der Erweiterung von Intelligenz experimentieren

Stärkung kleiner Modelle mit RL

Deepseek-R1 ist ein Open-Source-Modell, das mit OpenAI o1 konkurrieren kann, aber der genaue Trainingsprozess ist nicht öffentlich
Untersucht wird, wie sich mit RL bei geringem Rechenaufwand starke Reasoning-Modelle entwickeln lassen
Die größte bisherige Einschränkung von RL sind die hohen Kosten:
→ Um die Experimente von Deepseek-R1 zu reproduzieren, sind mindestens 70.000 A100-GPU-Stunden nötig
Lösung:
- Einsatz eines leistungsstarken Knowledge-Distillation-Modells
- Einführung der Technik „Iterative Lengthening“ zur schrittweisen Skalierung von RL → Reduktion des Rechenaufwands auf 3.800 A100-GPU-Stunden

Aufbau des Datensatzes

Verwendet wurden AIME (1984–2023) + AMC (vor 2023) + Omni-MATH + der Still-Datensatz
Datenbereinigung:
1. Antwort-Extraktion: Mit gemini-1.5-pro-002 wurden die Antworten aus offiziellen Lösungen extrahiert
2. Deduplizierung: Entfernung ähnlicher Aufgaben auf Basis von Embeddings mit sentence-transformers/all-MiniLM-L6-v2
3. Filterung nicht bewertbarer Aufgaben: Entfernung von Aufgaben, die sich mit sympy nicht automatisch bewerten lassen
Am Ende wurden 40.000 Problem-Antwort-Paare gesichert; eine spätere Erweiterung der Daten ist geplant

Reward Function

Wie bei Deepseek-R1 wird dasselbe „Outcome Reward Model (ORM)“ verwendet:
- 1 Punkt: Antwort im korrekten Format (sympy-Validierung bestanden)
- 0 Punkte: falsche Antwort, Formatfehler (z. B. fehlendes <think>...</think>)
Warum kein „Process Reward Model (PRM)“ verwendet wird:
- Vermeidung von Reward Hacking → verhindert Nebenwirkungen, bei denen das Modell nur noch dem Format folgt

„Iterative Lengthening“: eine Methode zur schrittweisen Ausweitung des RL-Trainings

Schritt 1: Start des RL-Trainings mit 8K-Kontext

Grund:
- Falsche Antworten sind im Schnitt 20.346 Token lang, richtige Antworten 6.395 Token → längere Antworten erhöhen die Wahrscheinlichkeit falscher Ergebnisse
- Training von Anfang an mit langem Kontext ist ineffizient → zuerst Optimierung mit 8K
Ergebnis:
- AIME Pass@1 verbessert sich von 28,9 % auf 33,9 % (+5 %)
- Weniger unnötige Token → durchschnittliche Antwortlänge sinkt um 10.484 Token

Schritt 2: Erweiterung auf 16K-Kontext

Nach 1.000 Trainingsschritten zeigt das Modell die Tendenz, länger nachzudenken (zu schlussfolgern)
Wegen der 8K-Grenze war der Trainingseffekt jedoch begrenzt → Erweiterung auf 16K
Vorteile:
- Mehr als doppelt so schnell wie ein Training mit 16K von Anfang an (verhindert eine durchschnittliche Antwortlänge von 3.000 → 9.000 Token)
- Erreicht 38 % Genauigkeit auf AIME2024

Schritt 3: „24K Magic“ – letzter Leistungsschub

Bei 16K stagniert die Leistung → letzte Erweiterung auf 24K-Kontext
Ergebnis: AIME2024-Pass@1-Genauigkeit von 43,1 %, damit besser als OpenAI o1-preview!

Endgültige Evaluationsergebnisse

Das DeepScaleR-Modell wurde auf mehreren Mathematik-Benchmarks evaluiert, darunter AIME, MATH 500, AMC 2023, Minerva Math und OlympiadBench
Gemessen an AIME2024 erreicht DeepScaleR-1.5B-Preview 43,1 % Genauigkeit und liegt damit vor OpenAI o1-preview
Auch bei MATH 500 und AMC 2023 erzielt das 1.5B-Modell Leistungen auf dem Niveau von 7B-Modellen oder darüber
Im Vergleich zu früheren Arbeiten (RL-basiertes rStar, PRIME, SimpleRL) zeigt es ebenfalls die höchste Effizienz

Kernaussagen (Key Takeaways)

RL-Scaling ist auch bei kleinen Modellen möglich
- Bisher galt RL oft als nur für große Modelle wirksam
- Doch auch kleine, mit hochwertigen Daten feinabgestimmte Modelle können über RL starke Reasoning-Fähigkeiten lernen
- DeepScaleR verbessert sich von 28,9 % auf 43,1 % (AIME-Genauigkeit)
Mit „Iterative Lengthening“ lässt sich die Kontextlänge effektiv erweitern
- Frühere Arbeiten berichteten von nur geringen Leistungssteigerungen bei Kontexten über 16K
- Durch die schrittweise Erweiterung von 8K → 16K → 24K wird die Leistung maximiert

Fazit: Demokratisierung des RL-Scalings

DeepScaleR-1.5B-Preview ist das erste Open-Source-RL-Modell, das O1-preview übertrifft
Schon mit nur 3.800 A100-GPU-Stunden ($4500) lässt sich ein leistungsstarkes Modell bauen → ein Beleg für das Potenzial kostengünstiger RL-Forschung
Gemeinsam mit der Open-Source-Community soll die Entwicklung RL-basierter Reasoning-Modelle weiter vorangetrieben werden

🔗 Open-Source-Materialien:

1 Kommentare

GN⁺ 2025-02-12

Hacker-News-Kommentare

Dieses Modell wurde benchmark-spezifisch darauf abgestimmt, bestimmte Probleme zu lösen, und schneidet bei anderen Aufgaben im Vergleich zu O1-Preview schlechter ab. Wenn man nicht gerade dieses Problem lösen will, ist es die Aufmerksamkeit nicht wert. Trotzdem weiterhin beeindruckend
Kleine Reinforcement-Modelle werden gewinnen. Schaut euch unsere Zivilisation, Unternehmen und Teams an: Es gibt viele spezialisierte Menschen, nicht ein einzelnes aufgeblähtes Genie
Das Problem ist die derzeitige Überbetonung von Benchmarks. Ideal wäre ein Benchmarking im Vergleich zu Nutzer-KPIs
Wichtig ist die einfache und verlässliche Formel, ein 1B-Modell zu trainieren, das bei einer bestimmten Aufgabe starke Leistung bringen kann. So etwas gab es zuvor nicht. Edge-Geräte werden sehr viel intelligenter werden
Ich bin vielleicht sehr naiv, aber vertraut irgendjemand diesen Benchmarks? Haben sie überhaupt Bedeutung? Sie wirken sehr leicht manipulierbar und nicht wie eine Möglichkeit, genau zu wissen, wie Modelle im Vergleich zueinander abschneiden. Wenn man Probleme einführt, die den Benchmarks ähneln, die das Modell aber noch nicht gesehen hat, scheint die Leistung deutlich abzufallen
Gibt es einen guten einfachen Prompt, mit dem man neue „Reasoning“-Modelle testen kann? „Zähle den Buchstaben R im Wort strawberry“ ist etwas langweilig
Ich probiere das hier lokal mit Ollama und der kleinsten quantisierten GGUF-Version (769 MB) aus
Ich habe die richtige Antwort erhalten, nachdem ich mir die hier erhaltene Antwort angesehen habe: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52. Allerdings hat es am Anfang einen wichtigen Fehler gemacht
Können CoT-Modelle externe Funktionen aufrufen? Was wäre, wenn sie Zugriff auf einen Taschenrechner hätten?
Es wäre wirklich schön, wenn man auf diese Weise ein unzensiertes Modell bekommen könnte
Eigentlich ziemlich dumm. Ich habe es gebeten, eine ASCII-Sequenz zu entschlüsseln, und es hat Unsinn ausgegeben. Dann habe ich phi-4 Q4 ausprobiert, und das lag richtig. 9 GB gegenüber 2 GB (Reasoning). In 2 GB lässt sich offenbar nicht genug Information unterbringen, daher scheint es außer zum Lösen allgemeiner Mathematikaufgaben oder zum Wissen darüber, was in den Trainingsdaten enthalten war, nicht besonders nützlich zu sein
An der Universität hätte man das ehrlich gesagt Overfitting genannt. Außerhalb des Evaluierungssets scheint es nicht gut zu funktionieren

DeepScaleR: Mit RL ein 1.5B-Modell trainieren, das O1-Preview übertrifft

Stärkung kleiner Modelle mit RL

Aufbau des Datensatzes

Reward Function

„Iterative Lengthening“: eine Methode zur schrittweisen Ausweitung des RL-Trainings

Schritt 1: Start des RL-Trainings mit 8K-Kontext

Schritt 2: Erweiterung auf 16K-Kontext

Schritt 3: „24K Magic“ – letzter Leistungsschub

Endgültige Evaluationsergebnisse

Kernaussagen (Key Takeaways)

Fazit: Demokratisierung des RL-Scalings

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare