Das O1-Preview-Modell direkt für unter 450 US-Dollar trainieren

(sky.cs.berkeley.edu)

1 Punkte von GN⁺ 2025-02-22 | 1 Kommentare | Auf WhatsApp teilen

Sky-T1 vom NovaSky-Team der UC Berkeley ist ein Projekt, das hervorhebt, dass sich ein Reasoning-Modell auf dem Niveau von O1 Preview für unter 450 US-Dollar direkt trainieren lässt
o1 und Gemini 2.0 Flash Thinking zeigen bei komplexen Aufgaben starke Reasoning-Leistung, indem sie lange interne Gedankengänge nutzen
Da bei solchen Modellen technische Details und Gewichte nicht offengelegt werden, sind sie für Wissenschaft und Open-Source-Community nur schwer reproduzierbar und erweiterbar
Es gab bereits Versuche mit Open-Weight-Reasoning-Modellen wie Still-2 und Journey, diese konzentrierten sich jedoch vor allem auf den Mathematikbereich
Das NovaSky-Team stellt als Unterscheidungsmerkmal von Sky-T1 heraus, dass mit demselben Modell wettbewerbsfähige Reasoning-Leistung sowohl in Mathematik als auch beim Coding erreicht wurde

Das Problem, auf das Sky-T1 abzielt

Sky-T1 ist ein vom NovaSky-Team des Sky Computing Lab an der UC Berkeley veröffentlichtes Projekt, das den Anspruch in den Vordergrund stellt, ein O1-Preview-Modell für unter 450 US-Dollar direkt zu trainieren
Auf Reasoning spezialisierte Modelle wie o1 und Gemini 2.0 Flash Thinking zeigen bei der Lösung komplexer Aufgaben die Fähigkeit, lange interne Gedankengänge zu erzeugen
Allerdings fehlt bei dieser Modellfamilie der Zugang zu technischen Details und Modellgewichten, sodass Wissenschaft und Open-Source-Community nur schwer direkt daran mitwirken können

Open-Weight-Reasoning-Modelle und der Unterschied

Als Versuche zum Training von Open-Weight-Reasoning-Modellen erschienen Still-2 und Journey, die sich auf den Mathematikbereich konzentrierten
Das NovaSky-Team untersucht Methoden zur Verbesserung der Reasoning-Fähigkeiten von Basismodellen und instruct-tuned Modellen
Bei der Arbeit an Sky-T1 wird betont, dass mit demselben Modell nicht nur in Mathematik, sondern auch beim Coding wettbewerbsfähige Reasoning-Leistung erreicht wurde

1 Kommentare

GN⁺ 2025-02-22

Meinungen auf Hacker News

Falls jemand Interesse hat: Ich habe ein Colab-Notebook mit kostenloser GPU erstellt.
Ein Notebook, um ein Reasoning-Modell von Grund auf mit GRPO zu trainieren, dem Algorithmus, den DeepSeek verwendet hat, sowie ein allgemeines Fine-Tuning-Notebook, wie es das Berkeley-Team genutzt hat.
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
17K-Datensatz des Berkeley-Teams: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k Hugging Face hat ebenfalls einen 220K-Datensatz veröffentlicht: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- Ich frage mich, wie lange das auf der kostenlosen T4-Stufe dauert.
  Ich hätte gedacht, dass solche Arbeiten, bei denen man „unter die Haube“ schaut, für normale Programmierer viel schwerer zugänglich wären, aber es wirkt so, als könne man das wirklich selbst ausprobieren.
Es wirkt seltsam, O1 preview in den Namen zu packen, fast wie Clickbait.
Ich hatte erwartet, dass es tatsächlich eine Möglichkeit gibt, o1 preview neu zu trainieren und herunterzuladen.
Außerdem ist es nicht korrekt, es nur anhand von sieben Benchmarks O1 preview zu nennen. In manchen Use Cases könnte O1 preview besser abschneiden als dieses Modell.
Trotzdem ist es gut, dass die Kosten sinken.
- Es ist nicht einmal ein bestimmtes Sprachmodell, sondern verweist direkt auf die Beta-Version dieses Modells; das finde ich nicht ehrlich. Keine Ahnung, warum man das so macht.
- Stimme zu. Der Name O1 preview ist etwas irreführend.
  Er lässt eine breitere Leistungsfähigkeit erwarten als nur bei einigen bestimmten Benchmarks. Die Kostensenkung ist cool, aber das Marketing sollte transparenter zeigen, wofür es tatsächlich gilt.
Wettbewerb ist wirklich gut.
Nur weil jemand die Architektur offengelegt hat, gab es in den letzten Wochen eine Flut an Fortschritten.
Man fragt sich, wie weit das gehen könnte, wenn sogar die Trainingsdatensätze offen wären und man nicht durch das Urheberrecht eingeschränkt wäre. Ich sage nicht, dass man etwas Illegales tun sollte.
Man kann wohl nur davon träumen.
- „Eine Flut an Fortschritten“ trifft es genau. Besonders nachdem sichtbar wurde, womit Meta seine Modelle trainiert hat :)
- Solche Trainingsdatensätze sind fast vollständig urheberrechtlich geschützt und können daher nie wirklich frei sein.
- Diese Entwicklung war ohnehin schon im Gang, und DeepSeek wirkt wie ein Beispiel dafür.
  Allerdings hat es Aufmerksamkeit auf diesen Fortschritt gelenkt, wodurch mehr Menschen beitragen und speziellere Anwendungsfälle finden.
- Ist die aktuelle Stimmung nicht: Wenn man das heißeste Startup hat, bricht man einfach das Gesetz und besticht Beamte? /s
  Ergänzend zu /s: Ich habe einmal im Ausland gelebt und damals das beliebteste Bitcoin-Casino betrieben und enorm viel Geld und Energie darauf verwendet, Spieler zu blockieren, die möglicherweise Amerikaner waren. Deshalb habe ich nicht das große Geld gemacht.
  Ich habe ausgerechnet, wie viel man verdienen müsste, um das Gesetz zu brechen und sich für immer zu verstecken; 10 bis 15 Millionen Dollar pro Jahr wären möglich gewesen, aber zum Untertauchen wäre das nicht genug gewesen. Ich glaube, ich habe es vermasselt.
  Der reichste Mensch der Welt hat anfangs den Großteil seines Geldes mit der Vermittlung von Glücksspieltransaktionen verdient und steckt jetzt seine Nase in alle Bundesbehörden. Ich hätte wohl den Mut haben sollen, eher um Vergebung als um Erlaubnis zu bitten.
In realen AI-Deployments wird Rechenaufwand zur Inferenzzeit noch stark untergenutzt.
Viele bauen Foundation Models, die über breite Problembereiche schlussfolgern müssen, aber nicht genug Leute nutzen dieselben Techniken, um die Leistung für bestimmte Aufgaben zu verbessern.
Man kann das Reasoning größerer Modelle wie R1 leicht für eine bestimmte Aufgabe distillieren. Noch besser: Wenn man maßgeschneiderte Denk-Anweisungen für bestimmte Teilprobleme einmischt, lernt das finegetunte Modell sowohl aufgabenspezifisches Reasoning als auch eigene Logik.
Das ist nicht schwierig und schlägt iterative Prompt-Verbesserung leicht. Wenn man einen Bug findet, kann man ihn außerdem beheben.
Ich habe ein GitHub-Projekt für das Distillieren von Thinking-Modellen und Fine-Tuning zur Inferenzzeit mit maßgeschneiderten Denkprozessen erstellt: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- Ich frage mich, wie man Fine-Tuning-Daten für eine flexible Bandbreite von Anfragen innerhalb eines bestimmten Problembereichs zusammenstellt, statt für eine isolierte Aufgabe.
  Das ist ähnlich wie allgemeines Instruction Tuning, aber viel enger fokussiert.
  Nehmen wir zum Beispiel eine App, die Ärzten hilft, Forschungsliteratur zu durchsuchen, Diagnosen zu unterstützen und Hypothesen zu überprüfen; natürlich müsste man mit Domänenexperten und echten Nutzern ansehen, welche Anfragen entstehen.
  Aber der nächste Schritt hin zu einem ausgewogenen Datensatz, der die Verteilung möglicher Anfragen, Anweisungen, Schreib- und kognitiver Stile, Formate, Gesprächsverläufe usw. ausreichend repräsentiert, wirkt vom Ansatz her schwer greifbar. Es scheint unendlich viele Dimensionen zu geben, in denen man versehentlich overfitten kann.
Der Blogpost ist etwas unklar; ich habe es so verstanden:
Mit QwQ wurden Trainingsdaten erstellt, und ein Teil der Bereinigung wurde mit GPT-4o-mini erledigt. Mit diesen Trainingsdaten wurde das Nicht-Reasoning-Modell Qwen2.5-32B-Instruct finegetunt.
Im Ergebnis ist Sky-T1 bei Reasoning-Aufgaben etwas schlechter als QwQ, aber viel besser als Qwen2.5.
Es gibt hier auch abwertende Reaktionen, aber ich finde es ziemlich interessant, weil es zeigt, dass man ein Basismodell per Fine-Tuning besser im Reasoning machen kann.
- Es wäre schön gewesen, es auch mit den R1-Distillationsmodellen von qwen2.5 zu vergleichen.
Das ist kein Training von Grund auf, sondern Fine-Tuning, und wirkt dadurch wie ein deutlich vernünftigerer Vorschlag.
Auch wenn ich nicht tief in diesem Bereich stecke, finde ich es gut, dass man sowohl Datensatz als auch Code bekommen kann, weil mich die Details des Fine-Tunings interessiert haben.
Bessere URL: https://novasky-ai.github.io/posts/sky-t1/
- Die frühere Diskussion gibt es hier: https://news.ycombinator.com/item?id=42681417
Es wurde mit den Reasoning-Traces von QwQ trainiert und ist in der Bewertung meistens etwas schlechter als QwQ.
Das würde ich nicht als enorme Leistung bezeichnen.
Der Kern scheint dieser Teil zu sein: „Das Modelltraining wird auf 8 H100 mit DeepSpeed-Zero-3-Offloading in 19 Stunden abgeschlossen und kostet nach den Preisen von Lambda Cloud etwa 450 Dollar.“

Das O1-Preview-Modell direkt für unter 450 US-Dollar trainieren

Das Problem, auf das Sky-T1 abzielt

Open-Weight-Reasoning-Modelle und der Unterschied

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News