22 Punkte von xguru 2025-01-17 | 1 Kommentare | Auf WhatsApp teilen
  • Sky-T1-32B-Preview ist ein Reasoning- und Coding-Modell, das eine Leistung auf ähnlichem Niveau wie o1-preview erreicht und mit geringen Kosten von nur 450 $ trainiert wurde
  • Der gesamte Code wird als Open Source bereitgestellt, sodass ihn jeder reproduzieren und verbessern kann
    • Hochleistungs-Reasoning-Modelle wie o1 und Gemini 2.0 können komplexe Aufgaben lösen, aber technische Details und Modellgewichte bleiben nicht öffentlich

Vollständig Open Source: Gemeinsam vorankommen

  • Sky-T1-32B-Preview stellt alle Details als Open Source bereit:

So wird es gemacht (Recipes)

Datenvorbereitung

  • Es wurden mit dem Modell QwQ-32B-Preview Daten generiert und ein Datenmix über verschiedene Domänen hinweg zusammengestellt
  • Rekonstruktion und verbessertes Format:
    • QwQ-Daten wurden mit GPT-4o-mini neu formatiert, um die Trainingseffizienz des Reasoning-Modells zu erhöhen
    • Durch das Neuformatieren wurde die Genauigkeit der Coding-Daten von 25 % auf über 90 % verbessert
  • Rejection Sampling:
    • Mathematikaufgaben: ungenaue Samples wurden durch Vergleich mit den korrekten Antworten entfernt
    • Coding-Aufgaben: Die Unit-Tests des Datensatzes wurden ausgeführt, um die korrekten Antworten zu prüfen
  • Endgültige Daten:
    • Coding-Daten: 5.000 aus den Datensätzen APPs und TACO
    • Mathematikdaten: 10.000 aus AIME, MATH und Olympiads von NuminaMATH
    • Sonstige Daten: 1.000 Wissenschafts- und Rätselaufgaben

Trainingsprozess

  • Trainiertes Modell: Qwen2.5-32B-Instruct (ein Open-Source-Modell ohne Reasoning-Fähigkeiten)
  • Trainingsumgebung:
    • Verwendung von 8 H100-GPUs, DeepSpeed Zero-3 Offloading
    • Trainingszeit: 19 Stunden
    • Kosten: etwa 450 $ (auf Basis von Lambda Cloud)
  • Das Training wurde mit Llama-Factory durchgeführt

Evaluierung und Zusammenfassung der Ergebnisse

  • Sky-T1-32B-Preview zeigte in verschiedenen Benchmarks im Vergleich zu Wettbewerbsmodellen folgende Leistung:
    • Math500: Sky-T1 erreicht 82,4 % und liegt damit nahezu gleichauf mit o1-preview (81,4 %), deutlich vor Qwen-2.5 (76,2 %)
    • AIME2024: Sky-T1 erzielt 43,3 %, liegt damit über o1-preview (40,0 %) und ist Qwen-2.5 (16,7 %) weit überlegen
    • LiveCodeBench (Easy): Sky-T1 erreicht 86,3 %, ähnlich wie Qwen-2.5 (84,6 %), mit nur geringem Abstand zu o1-preview (92,9 %)
    • LiveCodeBench (Medium): Sky-T1 erzielt 56,8 %, höher als o1-preview (54,9 %) und deutlich vor Qwen-2.5 (40,8 %)
    • LiveCodeBench (Hard): Sky-T1 erreicht 17,9 %, liegt damit leicht über o1-preview (16,3 %) und mit großem Abstand vor Qwen-2.5 (9,8 %)
    • GPQA-Diamond: Sky-T1 erzielt 56,8 %, liegt leicht vor QwQ (52,5 %), bleibt aber unter o1-preview (75,2 %)
  • Sky-T1-32B-Preview zeigt in Mathematik und Coding starke Leistung und hat insbesondere bei Coding-Aufgaben mittlerer Schwierigkeit einen Vorteil
  • Auch in mathematischen Benchmarks gehört es zur Spitzengruppe und belegt insgesamt, dass es ein effizientes und leistungsstarkes Modell ist.

Wichtige Erkenntnisse

  • Die Bedeutung der Modellgröße:
    • Bei Modellen mit 7B und 14B wurden nur begrenzte Verbesserungen festgestellt
    • Das 32B-Modell ist hinsichtlich Leistung und Konsistenz der Ergebnisse deutlich überlegen
  • Die Bedeutung des Datenmixes:
    • Das Training mit Daten aus nur einer Domäne kann die Leistung verschlechtern
    • Durch einen ausgewogenen Mix aus Mathematik- und Coding-Daten wurde in beiden Domänen eine starke Leistung erreicht

Weitere Pläne

  • Fokus auf die Entwicklung von Modellen, die bei hoher Effizienz eine starke Reasoning-Leistung liefern
  • Forschung an fortgeschrittenen Techniken zur Verbesserung von Testzeit-Effizienz und Genauigkeit
  • Ziel ist die Entwicklung weiter fortgeschrittener Modelle in Zusammenarbeit mit der Community

1 Kommentare

 
kimjoin2 2025-01-17

Warum ... warum lese ich das als SKT-T1?