- Sky-T1-32B-Preview ist ein Reasoning- und Coding-Modell, das eine Leistung auf ähnlichem Niveau wie o1-preview erreicht und mit geringen Kosten von nur 450 $ trainiert wurde
- Der gesamte Code wird als Open Source bereitgestellt, sodass ihn jeder reproduzieren und verbessern kann
- Hochleistungs-Reasoning-Modelle wie o1 und Gemini 2.0 können komplexe Aufgaben lösen, aber technische Details und Modellgewichte bleiben nicht öffentlich
Vollständig Open Source: Gemeinsam vorankommen
- Sky-T1-32B-Preview stellt alle Details als Open Source bereit:
So wird es gemacht (Recipes)
Datenvorbereitung
- Es wurden mit dem Modell QwQ-32B-Preview Daten generiert und ein Datenmix über verschiedene Domänen hinweg zusammengestellt
- Rekonstruktion und verbessertes Format:
- QwQ-Daten wurden mit GPT-4o-mini neu formatiert, um die Trainingseffizienz des Reasoning-Modells zu erhöhen
- Durch das Neuformatieren wurde die Genauigkeit der Coding-Daten von 25 % auf über 90 % verbessert
- Rejection Sampling:
- Mathematikaufgaben: ungenaue Samples wurden durch Vergleich mit den korrekten Antworten entfernt
- Coding-Aufgaben: Die Unit-Tests des Datensatzes wurden ausgeführt, um die korrekten Antworten zu prüfen
- Endgültige Daten:
- Coding-Daten: 5.000 aus den Datensätzen APPs und TACO
- Mathematikdaten: 10.000 aus AIME, MATH und Olympiads von NuminaMATH
- Sonstige Daten: 1.000 Wissenschafts- und Rätselaufgaben
Trainingsprozess
- Trainiertes Modell: Qwen2.5-32B-Instruct (ein Open-Source-Modell ohne Reasoning-Fähigkeiten)
- Trainingsumgebung:
- Verwendung von 8 H100-GPUs, DeepSpeed Zero-3 Offloading
- Trainingszeit: 19 Stunden
- Kosten: etwa 450 $ (auf Basis von Lambda Cloud)
- Das Training wurde mit Llama-Factory durchgeführt
Evaluierung und Zusammenfassung der Ergebnisse
- Sky-T1-32B-Preview zeigte in verschiedenen Benchmarks im Vergleich zu Wettbewerbsmodellen folgende Leistung:
- Math500: Sky-T1 erreicht 82,4 % und liegt damit nahezu gleichauf mit o1-preview (81,4 %), deutlich vor Qwen-2.5 (76,2 %)
- AIME2024: Sky-T1 erzielt 43,3 %, liegt damit über o1-preview (40,0 %) und ist Qwen-2.5 (16,7 %) weit überlegen
- LiveCodeBench (Easy): Sky-T1 erreicht 86,3 %, ähnlich wie Qwen-2.5 (84,6 %), mit nur geringem Abstand zu o1-preview (92,9 %)
- LiveCodeBench (Medium): Sky-T1 erzielt 56,8 %, höher als o1-preview (54,9 %) und deutlich vor Qwen-2.5 (40,8 %)
- LiveCodeBench (Hard): Sky-T1 erreicht 17,9 %, liegt damit leicht über o1-preview (16,3 %) und mit großem Abstand vor Qwen-2.5 (9,8 %)
- GPQA-Diamond: Sky-T1 erzielt 56,8 %, liegt leicht vor QwQ (52,5 %), bleibt aber unter o1-preview (75,2 %)
- Sky-T1-32B-Preview zeigt in Mathematik und Coding starke Leistung und hat insbesondere bei Coding-Aufgaben mittlerer Schwierigkeit einen Vorteil
- Auch in mathematischen Benchmarks gehört es zur Spitzengruppe und belegt insgesamt, dass es ein effizientes und leistungsstarkes Modell ist.
Wichtige Erkenntnisse
- Die Bedeutung der Modellgröße:
- Bei Modellen mit 7B und 14B wurden nur begrenzte Verbesserungen festgestellt
- Das 32B-Modell ist hinsichtlich Leistung und Konsistenz der Ergebnisse deutlich überlegen
- Die Bedeutung des Datenmixes:
- Das Training mit Daten aus nur einer Domäne kann die Leistung verschlechtern
- Durch einen ausgewogenen Mix aus Mathematik- und Coding-Daten wurde in beiden Domänen eine starke Leistung erreicht
Weitere Pläne
- Fokus auf die Entwicklung von Modellen, die bei hoher Effizienz eine starke Reasoning-Leistung liefern
- Forschung an fortgeschrittenen Techniken zur Verbesserung von Testzeit-Effizienz und Genauigkeit
- Ziel ist die Entwicklung weiter fortgeschrittener Modelle in Zusammenarbeit mit der Community
1 Kommentare
Warum ... warum lese ich das als SKT-T1?