5 Punkte von GN⁺ 2025-02-12 | 1 Kommentare | Auf WhatsApp teilen
  • DeepScaleR-1.5B-Preview: ein mit Reinforcement Learning (RL) feinabgestimmtes Modell auf Basis von Deepseek-R1-Distilled-Qwen-1.5B
  • Erreicht 43,1 % AIME2024-Pass@1-Genauigkeit (gegenüber dem Basismodell +14,3 %),
    → übertrifft die Leistung von OpenAI o1-preview!
  • Training mit 3.800 A100-GPU-Stunden ($4500) → 18,42-mal effizienteres RL-Scaling im Vergleich zu 70.000 A100-GPU-Stunden
  • Datensatz, Code und Trainingslogs als Open Source veröffentlicht → jede:r kann mit RL an der Erweiterung von Intelligenz experimentieren

Stärkung kleiner Modelle mit RL

  • Deepseek-R1 ist ein Open-Source-Modell, das mit OpenAI o1 konkurrieren kann, aber der genaue Trainingsprozess ist nicht öffentlich
  • Untersucht wird, wie sich mit RL bei geringem Rechenaufwand starke Reasoning-Modelle entwickeln lassen
  • Die größte bisherige Einschränkung von RL sind die hohen Kosten:
    → Um die Experimente von Deepseek-R1 zu reproduzieren, sind mindestens 70.000 A100-GPU-Stunden nötig
  • Lösung:
    • Einsatz eines leistungsstarken Knowledge-Distillation-Modells
    • Einführung der Technik „Iterative Lengthening“ zur schrittweisen Skalierung von RL → Reduktion des Rechenaufwands auf 3.800 A100-GPU-Stunden

Aufbau des Datensatzes

  • Verwendet wurden AIME (1984–2023) + AMC (vor 2023) + Omni-MATH + der Still-Datensatz

  • Datenbereinigung:

    1. Antwort-Extraktion: Mit gemini-1.5-pro-002 wurden die Antworten aus offiziellen Lösungen extrahiert
    2. Deduplizierung: Entfernung ähnlicher Aufgaben auf Basis von Embeddings mit sentence-transformers/all-MiniLM-L6-v2
    3. Filterung nicht bewertbarer Aufgaben: Entfernung von Aufgaben, die sich mit sympy nicht automatisch bewerten lassen
  • Am Ende wurden 40.000 Problem-Antwort-Paare gesichert; eine spätere Erweiterung der Daten ist geplant

Reward Function

  • Wie bei Deepseek-R1 wird dasselbe „Outcome Reward Model (ORM)“ verwendet:

    • 1 Punkt: Antwort im korrekten Format (sympy-Validierung bestanden)
    • 0 Punkte: falsche Antwort, Formatfehler (z. B. fehlendes <think>...</think>)
  • Warum kein „Process Reward Model (PRM)“ verwendet wird:

    • Vermeidung von Reward Hacking → verhindert Nebenwirkungen, bei denen das Modell nur noch dem Format folgt

„Iterative Lengthening“: eine Methode zur schrittweisen Ausweitung des RL-Trainings

Schritt 1: Start des RL-Trainings mit 8K-Kontext

  • Grund:
    • Falsche Antworten sind im Schnitt 20.346 Token lang, richtige Antworten 6.395 Token → längere Antworten erhöhen die Wahrscheinlichkeit falscher Ergebnisse
    • Training von Anfang an mit langem Kontext ist ineffizient → zuerst Optimierung mit 8K
  • Ergebnis:
    • AIME Pass@1 verbessert sich von 28,9 % auf 33,9 % (+5 %)
    • Weniger unnötige Token → durchschnittliche Antwortlänge sinkt um 10.484 Token

Schritt 2: Erweiterung auf 16K-Kontext

  • Nach 1.000 Trainingsschritten zeigt das Modell die Tendenz, länger nachzudenken (zu schlussfolgern)
  • Wegen der 8K-Grenze war der Trainingseffekt jedoch begrenzt → Erweiterung auf 16K
  • Vorteile:
    • Mehr als doppelt so schnell wie ein Training mit 16K von Anfang an (verhindert eine durchschnittliche Antwortlänge von 3.000 → 9.000 Token)
    • Erreicht 38 % Genauigkeit auf AIME2024

Schritt 3: „24K Magic“ – letzter Leistungsschub

  • Bei 16K stagniert die Leistung → letzte Erweiterung auf 24K-Kontext
  • Ergebnis: AIME2024-Pass@1-Genauigkeit von 43,1 %, damit besser als OpenAI o1-preview!

Endgültige Evaluationsergebnisse

  • Das DeepScaleR-Modell wurde auf mehreren Mathematik-Benchmarks evaluiert, darunter AIME, MATH 500, AMC 2023, Minerva Math und OlympiadBench
  • Gemessen an AIME2024 erreicht DeepScaleR-1.5B-Preview 43,1 % Genauigkeit und liegt damit vor OpenAI o1-preview
  • Auch bei MATH 500 und AMC 2023 erzielt das 1.5B-Modell Leistungen auf dem Niveau von 7B-Modellen oder darüber
  • Im Vergleich zu früheren Arbeiten (RL-basiertes rStar, PRIME, SimpleRL) zeigt es ebenfalls die höchste Effizienz

Kernaussagen (Key Takeaways)

  1. RL-Scaling ist auch bei kleinen Modellen möglich

    • Bisher galt RL oft als nur für große Modelle wirksam
    • Doch auch kleine, mit hochwertigen Daten feinabgestimmte Modelle können über RL starke Reasoning-Fähigkeiten lernen
    • DeepScaleR verbessert sich von 28,9 % auf 43,1 % (AIME-Genauigkeit)
  2. Mit „Iterative Lengthening“ lässt sich die Kontextlänge effektiv erweitern

    • Frühere Arbeiten berichteten von nur geringen Leistungssteigerungen bei Kontexten über 16K
    • Durch die schrittweise Erweiterung von 8K → 16K → 24K wird die Leistung maximiert

Fazit: Demokratisierung des RL-Scalings

  • DeepScaleR-1.5B-Preview ist das erste Open-Source-RL-Modell, das O1-preview übertrifft
  • Schon mit nur 3.800 A100-GPU-Stunden ($4500) lässt sich ein leistungsstarkes Modell bauen → ein Beleg für das Potenzial kostengünstiger RL-Forschung
  • Gemeinsam mit der Open-Source-Community soll die Entwicklung RL-basierter Reasoning-Modelle weiter vorangetrieben werden

🔗 Open-Source-Materialien:

1 Kommentare

 
GN⁺ 2025-02-12
Hacker-News-Kommentare
  • Dieses Modell wurde benchmark-spezifisch darauf abgestimmt, bestimmte Probleme zu lösen, und schneidet bei anderen Aufgaben im Vergleich zu O1-Preview schlechter ab. Wenn man nicht gerade dieses Problem lösen will, ist es die Aufmerksamkeit nicht wert. Trotzdem weiterhin beeindruckend
  • Kleine Reinforcement-Modelle werden gewinnen. Schaut euch unsere Zivilisation, Unternehmen und Teams an: Es gibt viele spezialisierte Menschen, nicht ein einzelnes aufgeblähtes Genie
  • Das Problem ist die derzeitige Überbetonung von Benchmarks. Ideal wäre ein Benchmarking im Vergleich zu Nutzer-KPIs
  • Wichtig ist die einfache und verlässliche Formel, ein 1B-Modell zu trainieren, das bei einer bestimmten Aufgabe starke Leistung bringen kann. So etwas gab es zuvor nicht. Edge-Geräte werden sehr viel intelligenter werden
  • Ich bin vielleicht sehr naiv, aber vertraut irgendjemand diesen Benchmarks? Haben sie überhaupt Bedeutung? Sie wirken sehr leicht manipulierbar und nicht wie eine Möglichkeit, genau zu wissen, wie Modelle im Vergleich zueinander abschneiden. Wenn man Probleme einführt, die den Benchmarks ähneln, die das Modell aber noch nicht gesehen hat, scheint die Leistung deutlich abzufallen
  • Gibt es einen guten einfachen Prompt, mit dem man neue „Reasoning“-Modelle testen kann? „Zähle den Buchstaben R im Wort strawberry“ ist etwas langweilig
  • Ich probiere das hier lokal mit Ollama und der kleinsten quantisierten GGUF-Version (769 MB) aus
  • Ich habe die richtige Antwort erhalten, nachdem ich mir die hier erhaltene Antwort angesehen habe: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52. Allerdings hat es am Anfang einen wichtigen Fehler gemacht
  • Können CoT-Modelle externe Funktionen aufrufen? Was wäre, wenn sie Zugriff auf einen Taschenrechner hätten?
  • Es wäre wirklich schön, wenn man auf diese Weise ein unzensiertes Modell bekommen könnte
  • Eigentlich ziemlich dumm. Ich habe es gebeten, eine ASCII-Sequenz zu entschlüsseln, und es hat Unsinn ausgegeben. Dann habe ich phi-4 Q4 ausprobiert, und das lag richtig. 9 GB gegenüber 2 GB (Reasoning). In 2 GB lässt sich offenbar nicht genug Information unterbringen, daher scheint es außer zum Lösen allgemeiner Mathematikaufgaben oder zum Wissen darüber, was in den Trainingsdaten enthalten war, nicht besonders nützlich zu sein
  • An der Universität hätte man das ehrlich gesagt Overfitting genannt. Außerhalb des Evaluierungssets scheint es nicht gut zu funktionieren