DeepScaleR: Mit RL ein 1.5B-Modell trainieren, das O1-Preview übertrifft
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: ein mit Reinforcement Learning (RL) feinabgestimmtes Modell auf Basis von Deepseek-R1-Distilled-Qwen-1.5B
- Erreicht 43,1 % AIME2024-Pass@1-Genauigkeit (gegenüber dem Basismodell +14,3 %),
→ übertrifft die Leistung von OpenAIo1-preview! - Training mit 3.800 A100-GPU-Stunden ($4500) → 18,42-mal effizienteres RL-Scaling im Vergleich zu 70.000 A100-GPU-Stunden
- Datensatz, Code und Trainingslogs als Open Source veröffentlicht → jede:r kann mit RL an der Erweiterung von Intelligenz experimentieren
Stärkung kleiner Modelle mit RL
- Deepseek-R1 ist ein Open-Source-Modell, das mit OpenAI
o1konkurrieren kann, aber der genaue Trainingsprozess ist nicht öffentlich - Untersucht wird, wie sich mit RL bei geringem Rechenaufwand starke Reasoning-Modelle entwickeln lassen
- Die größte bisherige Einschränkung von RL sind die hohen Kosten:
→ Um die Experimente vonDeepseek-R1zu reproduzieren, sind mindestens 70.000 A100-GPU-Stunden nötig - Lösung:
- Einsatz eines leistungsstarken Knowledge-Distillation-Modells
- Einführung der Technik „Iterative Lengthening“ zur schrittweisen Skalierung von RL → Reduktion des Rechenaufwands auf 3.800 A100-GPU-Stunden
Aufbau des Datensatzes
-
Verwendet wurden AIME (1984–2023) + AMC (vor 2023) + Omni-MATH + der Still-Datensatz
-
Datenbereinigung:
- Antwort-Extraktion: Mit
gemini-1.5-pro-002wurden die Antworten aus offiziellen Lösungen extrahiert - Deduplizierung: Entfernung ähnlicher Aufgaben auf Basis von Embeddings mit
sentence-transformers/all-MiniLM-L6-v2 - Filterung nicht bewertbarer Aufgaben: Entfernung von Aufgaben, die sich mit
sympynicht automatisch bewerten lassen
- Antwort-Extraktion: Mit
-
Am Ende wurden 40.000 Problem-Antwort-Paare gesichert; eine spätere Erweiterung der Daten ist geplant
Reward Function
-
Wie bei Deepseek-R1 wird dasselbe „Outcome Reward Model (ORM)“ verwendet:
1 Punkt: Antwort im korrekten Format (sympy-Validierung bestanden)0 Punkte: falsche Antwort, Formatfehler (z. B. fehlendes<think>...</think>)
-
Warum kein „Process Reward Model (PRM)“ verwendet wird:
- Vermeidung von Reward Hacking → verhindert Nebenwirkungen, bei denen das Modell nur noch dem Format folgt
„Iterative Lengthening“: eine Methode zur schrittweisen Ausweitung des RL-Trainings
Schritt 1: Start des RL-Trainings mit 8K-Kontext
- Grund:
- Falsche Antworten sind im Schnitt 20.346 Token lang, richtige Antworten 6.395 Token → längere Antworten erhöhen die Wahrscheinlichkeit falscher Ergebnisse
- Training von Anfang an mit langem Kontext ist ineffizient → zuerst Optimierung mit 8K
- Ergebnis:
- AIME Pass@1 verbessert sich von 28,9 % auf 33,9 % (+5 %)
- Weniger unnötige Token → durchschnittliche Antwortlänge sinkt um 10.484 Token
Schritt 2: Erweiterung auf 16K-Kontext
- Nach 1.000 Trainingsschritten zeigt das Modell die Tendenz, länger nachzudenken (zu schlussfolgern)
- Wegen der 8K-Grenze war der Trainingseffekt jedoch begrenzt → Erweiterung auf 16K
- Vorteile:
- Mehr als doppelt so schnell wie ein Training mit 16K von Anfang an (verhindert eine durchschnittliche Antwortlänge von 3.000 → 9.000 Token)
- Erreicht 38 % Genauigkeit auf AIME2024
Schritt 3: „24K Magic“ – letzter Leistungsschub
- Bei 16K stagniert die Leistung → letzte Erweiterung auf 24K-Kontext
- Ergebnis: AIME2024-Pass@1-Genauigkeit von 43,1 %, damit besser als OpenAI
o1-preview!
Endgültige Evaluationsergebnisse
- Das DeepScaleR-Modell wurde auf mehreren Mathematik-Benchmarks evaluiert, darunter AIME, MATH 500, AMC 2023, Minerva Math und OlympiadBench
- Gemessen an AIME2024 erreicht DeepScaleR-1.5B-Preview 43,1 % Genauigkeit und liegt damit vor OpenAI
o1-preview - Auch bei MATH 500 und AMC 2023 erzielt das 1.5B-Modell Leistungen auf dem Niveau von 7B-Modellen oder darüber
- Im Vergleich zu früheren Arbeiten (RL-basiertes rStar, PRIME, SimpleRL) zeigt es ebenfalls die höchste Effizienz
Kernaussagen (Key Takeaways)
-
RL-Scaling ist auch bei kleinen Modellen möglich
- Bisher galt RL oft als nur für große Modelle wirksam
- Doch auch kleine, mit hochwertigen Daten feinabgestimmte Modelle können über RL starke Reasoning-Fähigkeiten lernen
- DeepScaleR verbessert sich von 28,9 % auf 43,1 % (AIME-Genauigkeit)
-
Mit „Iterative Lengthening“ lässt sich die Kontextlänge effektiv erweitern
- Frühere Arbeiten berichteten von nur geringen Leistungssteigerungen bei Kontexten über 16K
- Durch die schrittweise Erweiterung von 8K → 16K → 24K wird die Leistung maximiert
Fazit: Demokratisierung des RL-Scalings
- DeepScaleR-1.5B-Preview ist das erste Open-Source-RL-Modell, das O1-preview übertrifft
- Schon mit nur 3.800 A100-GPU-Stunden ($4500) lässt sich ein leistungsstarkes Modell bauen → ein Beleg für das Potenzial kostengünstiger RL-Forschung
- Gemeinsam mit der Open-Source-Community soll die Entwicklung RL-basierter Reasoning-Modelle weiter vorangetrieben werden
🔗 Open-Source-Materialien:
1 Kommentare
Hacker-News-Kommentare