Sky-T1: Ein leistungsstarkes Reasoning-Modell auf o1-preview-Niveau für 450 $ trainieren

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Preview ist ein Reasoning- und Coding-Modell, das eine Leistung auf ähnlichem Niveau wie o1-preview erreicht und mit geringen Kosten von nur 450 $ trainiert wurde Der gesamte Code wird als Open Source bereitgestellt, sodass ihn jeder reproduzieren und verbessern kann Hochleistungs-Reasoning-Modelle wie o1 und Gemini 2.0 können komplexe Aufgaben lösen, aber technische Details und Modellgewichte bleiben nicht öffentlich Vollständig Open Source: Gemeinsam vorankommen Sky-T1-32B-Preview stellt alle Details als Open Source bereit: Infrastruktur: ein integriertes Repository für Datenaufbau, Modelltraining und Evaluierung Daten: Bereitstellung von 17.000 Trainingsdatensätzen Technische Details: technischer Bericht und wandb-Logs Modellgewichte: Modellgewichte in der Größe 32B So wird es gemacht (Recipes) Datenvorbereitung Es wurden mit dem Modell QwQ-32B-Preview Daten generiert und ein Datenmix über verschiedene Domänen hinweg zusammengestellt Rekonstruktion und verbessertes Format: QwQ-Daten wurden mit GPT-4o-mini neu formatiert, um die Trainingseffizienz des Reasoning-Modells zu erhöhen Durch das Neuformatieren wurde die Genauigkeit der Coding-Daten von 25 % auf über 90 % verbessert Rejection Sampling: Mathematikaufgaben: ungenaue Samples wurden durch Vergleich mit den korrekten Antworten entfernt Coding-Aufgaben: Die Unit-Tests des Datensatzes wurden ausgeführt, um die korrekten Antworten zu prüfen Endgültige Daten: Coding-Daten: 5.000 aus den Datensätzen APPs und TACO Mathematikdaten: 10.000 aus AIME, MATH und Olympiads von NuminaMATH Sonstige Daten: 1.000 Wissenschafts- und Rätselaufgaben Trainingsprozess Trainiertes Modell: Qwen2.5-32B-Instruct (ein Open-Source-Modell ohne Reasoning-Fähigkeiten) Trainingsumgebung: Verwendung von 8 H100-GPUs, DeepSpeed Zero-3 Offloading Trainingszeit: 19 Stunden Kosten: etwa 450 $ (auf Basis von Lambda Cloud) Das Training wurde mit Llama-Factory durchgeführt Evaluierung und Zusammenfassung der Ergebnisse Sky-T1-32B-Preview zeigte in verschiedenen Benchmarks im Vergleich zu Wettbewerbsmodellen folgende Leistung: Math500: Sky-T1 erreicht 82,4 % und liegt damit nahezu gleichauf mit o1-preview (81,4 %), deutlich vor Qwen-2.5 (76,2 %) AIME2024: Sky-T1 erzielt 43,3 %, liegt damit über o1-preview (40,0 %) und ist Qwen-2.5 (16,7 %) weit überlegen LiveCodeBench (Easy): Sky-T1 erreicht 86,3 %, ähnlich wie Qwen-2.5 (84,6 %), mit nur geringem Abstand zu o1-preview (92,9 %) LiveCodeBench (Medium): Sky-T1 erzielt 56,8 %, höher als o1-preview (54,9 %) und deutlich vor Qwen-2.5 (40,8 %) LiveCodeBench (Hard): Sky-T1 erreicht 17,9 %, liegt damit leicht über o1-preview (16,3 %) und mit großem Abstand vor Qwen-2.5 (9,8 %) GPQA-Diamond: Sky-T1 erzielt 56,8 %, liegt leicht vor QwQ (52,5 %), bleibt aber unter o1-preview (75,2 %) Sky-T1-32B-Preview zeigt in Mathematik und Coding starke Leistung und hat insbesondere bei Coding-Aufgaben mittlerer Schwierigkeit einen Vorteil Auch in mathematischen Benchmarks gehört es zur Spitzengruppe und belegt insgesamt, dass es ein effizientes und leistungsstarkes Modell ist. Wichtige Erkenntnisse Die Bedeutung der Modellgröße: Bei Modellen mit 7B und 14B wurden nur begrenzte Verbesserungen festgestellt Das 32B-Modell ist hinsichtlich Leistung und Konsistenz der Ergebnisse deutlich überlegen Die Bedeutung des Datenmixes: Das Training mit Daten aus nur einer Domäne kann die Leistung verschlechtern Durch einen ausgewogenen Mix aus Mathematik- und Coding-Daten wurde in beiden Domänen eine starke Leistung erreicht Weitere Pläne Fokus auf die Entwicklung von Modellen, die bei hoher Effizienz eine starke Reasoning-Leistung liefern Forschung an fortgeschrittenen Techniken zur Verbesserung von Testzeit-Effizienz und Genauigkeit Ziel ist die Entwicklung weiter fortgeschrittener Modelle in Zusammenarbeit mit der Community

(novasky-ai.github.io)

22 Punkte von xguru 2025-01-17 | 1 Kommentare | Auf WhatsApp teilen

Sky-T1-32B-Preview ist ein Reasoning- und Coding-Modell, das eine Leistung auf ähnlichem Niveau wie o1-preview erreicht und mit geringen Kosten von nur 450 $ trainiert wurde
Der gesamte Code wird als Open Source bereitgestellt, sodass ihn jeder reproduzieren und verbessern kann
- Hochleistungs-Reasoning-Modelle wie o1 und Gemini 2.0 können komplexe Aufgaben lösen, aber technische Details und Modellgewichte bleiben nicht öffentlich

Vollständig Open Source: Gemeinsam vorankommen

Sky-T1-32B-Preview stellt alle Details als Open Source bereit:
- Infrastruktur: ein integriertes Repository für Datenaufbau, Modelltraining und Evaluierung
- Daten: Bereitstellung von 17.000 Trainingsdatensätzen
- Technische Details: technischer Bericht und wandb-Logs
- Modellgewichte: Modellgewichte in der Größe 32B

So wird es gemacht (Recipes)

Datenvorbereitung

Es wurden mit dem Modell QwQ-32B-Preview Daten generiert und ein Datenmix über verschiedene Domänen hinweg zusammengestellt
Rekonstruktion und verbessertes Format:
- QwQ-Daten wurden mit GPT-4o-mini neu formatiert, um die Trainingseffizienz des Reasoning-Modells zu erhöhen
- Durch das Neuformatieren wurde die Genauigkeit der Coding-Daten von 25 % auf über 90 % verbessert
Rejection Sampling:
- Mathematikaufgaben: ungenaue Samples wurden durch Vergleich mit den korrekten Antworten entfernt
- Coding-Aufgaben: Die Unit-Tests des Datensatzes wurden ausgeführt, um die korrekten Antworten zu prüfen
Endgültige Daten:
- Coding-Daten: 5.000 aus den Datensätzen APPs und TACO
- Mathematikdaten: 10.000 aus AIME, MATH und Olympiads von NuminaMATH
- Sonstige Daten: 1.000 Wissenschafts- und Rätselaufgaben

Trainingsprozess

Trainiertes Modell: Qwen2.5-32B-Instruct (ein Open-Source-Modell ohne Reasoning-Fähigkeiten)
Trainingsumgebung:
- Verwendung von 8 H100-GPUs, DeepSpeed Zero-3 Offloading
- Trainingszeit: 19 Stunden
- Kosten: etwa 450 $ (auf Basis von Lambda Cloud)
Das Training wurde mit Llama-Factory durchgeführt

Evaluierung und Zusammenfassung der Ergebnisse

Sky-T1-32B-Preview zeigte in verschiedenen Benchmarks im Vergleich zu Wettbewerbsmodellen folgende Leistung:
- Math500: Sky-T1 erreicht 82,4 % und liegt damit nahezu gleichauf mit o1-preview (81,4 %), deutlich vor Qwen-2.5 (76,2 %)
- AIME2024: Sky-T1 erzielt 43,3 %, liegt damit über o1-preview (40,0 %) und ist Qwen-2.5 (16,7 %) weit überlegen
- LiveCodeBench (Easy): Sky-T1 erreicht 86,3 %, ähnlich wie Qwen-2.5 (84,6 %), mit nur geringem Abstand zu o1-preview (92,9 %)
- LiveCodeBench (Medium): Sky-T1 erzielt 56,8 %, höher als o1-preview (54,9 %) und deutlich vor Qwen-2.5 (40,8 %)
- LiveCodeBench (Hard): Sky-T1 erreicht 17,9 %, liegt damit leicht über o1-preview (16,3 %) und mit großem Abstand vor Qwen-2.5 (9,8 %)
- GPQA-Diamond: Sky-T1 erzielt 56,8 %, liegt leicht vor QwQ (52,5 %), bleibt aber unter o1-preview (75,2 %)
Sky-T1-32B-Preview zeigt in Mathematik und Coding starke Leistung und hat insbesondere bei Coding-Aufgaben mittlerer Schwierigkeit einen Vorteil
Auch in mathematischen Benchmarks gehört es zur Spitzengruppe und belegt insgesamt, dass es ein effizientes und leistungsstarkes Modell ist.

Wichtige Erkenntnisse

Die Bedeutung der Modellgröße:
- Bei Modellen mit 7B und 14B wurden nur begrenzte Verbesserungen festgestellt
- Das 32B-Modell ist hinsichtlich Leistung und Konsistenz der Ergebnisse deutlich überlegen
Die Bedeutung des Datenmixes:
- Das Training mit Daten aus nur einer Domäne kann die Leistung verschlechtern
- Durch einen ausgewogenen Mix aus Mathematik- und Coding-Daten wurde in beiden Domänen eine starke Leistung erreicht

Weitere Pläne

Fokus auf die Entwicklung von Modellen, die bei hoher Effizienz eine starke Reasoning-Leistung liefern
Forschung an fortgeschrittenen Techniken zur Verbesserung von Testzeit-Effizienz und Genauigkeit
Ziel ist die Entwicklung weiter fortgeschrittener Modelle in Zusammenarbeit mit der Community

1 Kommentare

kimjoin2 2025-01-17

Warum ... warum lese ich das als SKT-T1?