Olmo 3: Ein neuer Weg für den Model Flow, um Open-Source-AI voranzubringen

(allenai.org)

5 Punkte von GN⁺ 2025-11-22 | 1 Kommentare | Auf WhatsApp teilen

Olmo 3 veröffentlicht nicht nur das Endergebnis des Modells, sondern den gesamten Entwicklungsprozess (model flow) und bietet damit vollständige Nachverfolgbarkeit bis hin zu Daten, Code und Checkpoints
Es besteht aus vier Modellvarianten — Base, Think, Instruct, RL Zero — in den Größen 7B und 32B Parameter und eignet sich damit für verschiedene Forschungszwecke wie Reasoning, Dialog und Reinforcement Learning
Auf Basis der Datensätze Dolma 3 und Dolci werden transparente Trainingsdaten im Umfang von rund 9,3 Billionen Tokens aus Web, Code, Mathematik, Wissenschaft und mehr offengelegt
Mit dem Tool OlmoTrace lässt sich in Echtzeit nachverfolgen, aus welchen Trainingsdaten die Ausgabe eines Modells stammt, was Transparenz und Vertrauenswürdigkeit stärkt
Durch die vollständig offene Veröffentlichung kann jeder an bestimmten Phasen des Modells eingreifen, es ändern oder erneut trainieren und so ein überprüfbares KI-Forschungsökosystem aufbauen

Überblick über Olmo 3

Olmo 3 ist eine von Allen Institute for AI (Ai2) veröffentlichte Open-Source-Sprachmodellfamilie der nächsten Generation, deren Kernmerkmal die Offenlegung des gesamten Entwicklungsablaufs (model flow) ist
- Der Model Flow umfasst alle Schritte wie Datensammlung, Vorverarbeitung, Training, Fine-Tuning und Reinforcement Learning
- Dadurch können Forschende und Entwickler die interne Funktionsweise des Modells analysieren und verändern
Olmo 3 ist in Versionen mit 7B und 32B Parametern verfügbar und kann in unterschiedlichen Umgebungen vom Notebook bis zum Forschungscluster ausgeführt werden

Zentrale Modellvarianten

Olmo 3-Base (7B, 32B)
- Ein vollständig offenes Basismodell mit Spitzenleistung in verschiedenen Bereichen wie Code, Mathematik und Textverständnis
- Es konkurriert mit Modellen derselben Klasse wie Qwen 2.5 und Gemma 3 und unterstützt einen erweiterten Kontext von 65K Tokens
Olmo 3-Think (7B, 32B)
- Ein auf Reasoning spezialisiertes Modell, das auf mehrstufige Schlussfolgerungsprobleme trainiert wurde und sich für RL-Forschung sowie Experimente zum langfristigen Denken eignet
- Das 32B-Modell erreicht Leistung auf Spitzenniveau seiner Klasse bei MATH, OMEGA, BigBenchHard und weiteren Benchmarks
Olmo 3-Instruct (7B)
- Ein für Dialog, Befehlsausführung und Tool-Nutzung optimiertes Modell, das Qwen 2.5, Gemma 3 und Llama 3.1 erreicht oder übertrifft
Olmo 3-RL Zero (7B)
- Bietet einen vollständig offenen Pfad zur Bewertung von Reinforcement-Learning-Algorithmen und enthält Checkpoints für vier Domänen wie Mathematik, Code und Befolgen von Anweisungen

Leistung und Benchmarks

Olmo 3-Base 32B übertrifft vollständig offene Modelle wie Marin 32B und Apertus 70B
- Es erzielt starke Ergebnisse in wichtigen Benchmarks, darunter 80,5 Punkte bei GSM8k (Mathematik) und 66,5 Punkte bei HumanEval (Code)
Olmo 3-Think 32B zeigt eine ähnliche oder nahekommende Leistung wie Qwen 3 32B und erreicht Bestwerte unter anderem bei HumanEvalPlus und IFEval
Olmo 3-Instruct 7B erzielt im Bereich Safety mit 87,3 Punkten den höchsten Wert unter den Vergleichsmodellen

Architektur und Trainingsprozess

Verwendet eine decoder-only Transformer-Architektur und besteht aus einem dreistufigen Pretraining (Grundlage → Mittelstufe → Langkontext) sowie einem dreistufigen Post-Training (SFT → DPO → RLVR)
Checkpoints für jede Phase werden veröffentlicht, sodass Forschende das Modell an jedem gewünschten Punkt forken oder damit experimentieren können
Mit den Datensätzen Dolma 3 (rund 9,3 Billionen Tokens) und Dolci wird Datentransparenz über den gesamten Trainingsprozess hinweg sichergestellt
- Zu den Detailkomponenten gehören Dolma 3 Mix (6 Billionen Tokens), Dolmino (100B Tokens) und Longmino (50B Tokens)
- Dolci stellt für jede Phase — SFT, DPO und RLVR — eigene Datenmischungen bereit

Effiziente Trainingsinfrastruktur

Training mit bis zu 1.024 H100-GPUs, Verarbeitungsgeschwindigkeit von 7,7K Tokens/Sekunde beim 7B-Modell
Durch in-flight weight updates, continuous batching und verbessertes Threading wurde die Effizienz des RL-Trainings um das Vierfache gesteigert
Das 32B-Modell von Olmo 3 ist als Gleichgewichtspunkt zwischen Leistung und Zugänglichkeit ausgelegt, sodass Forschende es selbst feinabstimmen können

Transparenz und Tool-Ökosystem

Mit OlmoTrace lässt sich die Verbindung zwischen Modellausgaben und Trainingsdaten visuell nachverfolgen
Sämtliche Datensätze und Toolchains werden als Open Source veröffentlicht
- Dazu gehören Olmo-core (Framework für verteiltes Training), Open Instruct (Post-Training-Pipeline), datamap-rs (Datenbereinigung), duplodocus (Deduplizierung) und OLMES (Evaluierungs-Toolkit)
Forschende können Zwischenstufen des modellinternen Reasonings und Fehlerpunkte analysieren, um die Ursachen des Modellverhaltens zu verstehen

Einsatzmöglichkeiten und Bedeutung

Olmo 3 unterstützt den Aufbau vertrauenswürdiger KI-Systeme in Forschung, Bildung und Anwendungsentwicklung
Da alle Phasen des Modells offengelegt sind, werden Reproduzierbarkeit, Überprüfbarkeit und kollaborative Forschung gefördert
Ai2 erklärt, „wahre Open-Source-AI bedeutet nicht nur Zugang, sondern Vertrauen, Verantwortung und gemeinsame Weiterentwicklung“
Mit vollständiger Transparenz präsentiert Olmo 3 ein neues offenes Forschungsparadigma, in dem jeder das Innere von KI verstehen und verbessern kann

1 Kommentare

GN⁺ 2025-11-22

Hacker-News-Kommentare

Ich denke, die Zukunft der KI liegt in Systemen mit vollständig nachvollziehbaren Denkschritten.
Ohne solche Transparenz wird die breite Öffentlichkeit wohl keine Möglichkeit haben, große LLM-basierte Systeme zu verstehen oder zu kontrollieren.
Am Ende besteht die Gefahr, dass Big Tech, Autoritäre oder die KI selbst nach Belieben handeln.
- Deshalb ist es interessant, dass viele Leute genau diesen Ansatz abschaffen wollen.
- Zumindest sollte man wissen, welche Trainingsdaten jedes KI-Modell verwendet hat.
  Ich denke, es braucht eine Struktur, in der eine dritte Instanz Audits durchführt und Transparenzberichte bereitstellt.
- Transparenz ist gut, aber Antworten anpassbar zu machen, ist eine große UI/UX-Herausforderung.
  Ich hoffe, dass solche Versuche weiter wiederholt werden.
Der Begriff „Open-Source-KI“ wirkt bereits durch Marketing verzerrt.
Es ist eine falsche Praxis, etwas allein wegen offengelegter Gewichte als Open Source zu bezeichnen.
Echte Open-Source-Modelle brauchen vielleicht einen neuen Namen wie „transparente Modelle“.
Ich habe gefragt, ob eine Giraffe koscher ist, und das Modell antwortete mit „nein“.
Aber nach meiner Auslegung und dem talmudischen Recht wäre sie erlaubt, und GPT5.1 stimmte meiner Auslegung zu.
- Es ist seltsam, dass das Modell sich solche religiösen Details einprägt.
  Solche Informationen sollten eher suchbasiert, etwa über RAG, geholt werden.
  Ein Modell, das mit „Ich weiß es nicht“ antwortet, wäre wohl nützlicher.
- Mich würde interessieren, wie oft du es erneut versucht hast und wie temperature oder top_p eingestellt waren.
- Eigentlich ist interessant, dass solche Fragen wohl nicht mehr als Maßstab für ein öffentliches Gut taugen.
Ich verlagere meinen wichtigsten Workflow in letzter Zeit von OpenAI auf lokale Modelle.
Kleine Modelle neigen dazu, Edge Cases zwanghaft verarbeiten zu wollen.
Wenn man ihnen deshalb einen Ausweg wie „edge_case“ gibt, funktionieren sie viel besser.
Ich wünschte, es gäbe ein zentrales Repository, das solche Prompt-Hacking-Tipps sammelt.
- Ich frage mich, ob „edge_case“ der Schlüssel (key) in einem strukturierten Ausgabeschema ist.
- Mich würde interessieren, ob du ein Frontend wie Open WebUI oder LibreChat nutzt oder es direkt aufrufst.
Ich habe im AllenAI Playground auf „Show OlmoTrace“ geklickt.
Dort heißt es, passende Trainingsdaten-Dokumente zur Modellantwort würden angezeigt.
Tatsächlich scheint es aber nur einfache N-Gram-Treffer zu finden, daher ist das kaum echte Nachvollziehbarkeit.
Manchmal kamen die Ergebnisse sogar aus Dokumenten, die nichts mit der Frage zu tun hatten.
N-Gram-Erklärung
- Als Olmo-Forscher würde ich sagen: Der Zweck von OlmoTrace ist nicht, eine Antwort einem bestimmten Dokument zuzuordnen.
  Es soll vielmehr zeigen, von welchen Trainingsdaten-Fragmenten das Modell beeinflusst wurde.
  So lässt sich zum Beispiel nachvollziehen, warum verschiedene Modelle denselben Witz oder dieselbe Zahl wiederholen.
Ich halte drei Modellgrößen für ideal: 7B, 20B und 32B.
7B passt zu einer 8-GB-GPU, 32B zu einer 24-GB-GPU, und ein 20B-Modell passt genau zu einer 16-GB-GPU.
- Das hängt natürlich von der Architektur ab.
  Es laufen weiterhin Experimente, um die optimale Größe zu finden.
  Persönlich hoffe ich, dass GPUs irgendwann erweiterbaren VRAM bekommen.
Ich habe das 7B-Modell gefragt: „hi, who are u“, und es blieb bei der internen Analyse des Satzes hängen.
Vermutlich ist das ein OpenWebUI-Bug.
- Bei jedem neuen Modell gibt es viele Fälle, in denen mit nicht unterstützter Software getestet wird.
  Bei GPT-OSS war das auch so, und bei OLMo dürfte sich jetzt Ähnliches wiederholen.
- Ich habe es selbst im Playground ausprobiert:
  7B antwortet mit „Hi! I'm Olmo 3…“, 32B mit „Hi! I'm Olmo…“.
- Ich bin Forscher im Post-Training-Team von Ai2 und würde gern wissen, wo du es getestet hast.
- Das erinnert mich an den Witz, „good morning“ übermäßig zu analysieren.
  Am Ende wirkt selbst eine einfache Begrüßung wie eine philosophische Auslegung.
- Ich würde empfehlen zu prüfen, ob vielleicht ein Limit für completion tokens gesetzt war.
Ich habe den Dolma3-Datensatz auf Hugging Face gesehen und war überrascht, dass gleich in der ersten Zeile Text von Erwachsenenseiten enthalten war.
- Wahrscheinlich ist das noch vor der Kurationsphase.
  Wenn man die gesamte Pipeline offenlegen will, müssen solche Daten eben auch enthalten sein.
  Trotzdem wäre es wohl besser gewesen, die Vorschau so anzupassen, dass solche Stellen nicht sofort sichtbar sind.
- Erotische Fiction ist ohnehin einer der wichtigsten Anwendungsfälle solcher Modelle.
Mich interessiert, wofür kleine Modelle in der Praxis genutzt werden.
Die meisten scheinen für On-Device-Inferenz gedacht zu sein, aber gibt es noch andere Fälle?
- Als Ai2-Forscher würde ich sagen: 7B ist ein lokales Modell für Consumer-GPUs, 32B lässt sich vielfältiger einsetzen.
  Viele Unternehmen, die feinabgestimmte Qwen 3-Modelle nutzen, könnten auf Olmo 32B umsteigen.
- Unser Team feinabstimmt 7B-Modelle als domänenspezifische Klassifikatoren.
  Die Leistung war besser als bei kleinen Nicht-LLMs.
- Ich halte Qwen3-30B-VL dauerhaft im VRAM geladen.
  Es ist schneller als eine einfache Google-Suche und erledigt auch Terminal-Befehle, Dateibrowsing und Notizenorganisation.
  Dank der Geschwindigkeit (90tok/s) und der niedrigen Latenz lassen sich kleine Aufgaben viel effizienter erledigen.
  Dagegen ist Sonnet 4.5 langsam und subtil falsch, wodurch es für den echten Einsatz ineffizient ist.
Qwen3-30B-VL ist für den Alltag fast perfekt.
Es ist schnell (90tok/s) und deckt die meisten Aufgaben ab.
Solche Forschung ist wichtig, aber dichte (dense) Modelle werden es schwer haben, bei dieser Geschwindigkeit mitzuhalten.
- Als Olmo-Entwickler würde ich sagen, dass Qwen-Modelle dank ihrer MoE-Architektur schnell sind.
  In der nächsten Olmo-Version wollen wir ebenfalls MoE einführen.
- Auf einem neuen MacBook lief es zwar langsam, aber Qwen2.5:14B gab dafür sofortiges Feedback.
  Man konnte sich damit sogar natürlich auf Esperanto unterhalten.
- Ich frage mich, ob Qwen3-30B-VL nicht nur wegen seiner Größe „smarter“ ist, sondern wegen Architekturunterschieden.

Olmo 3: Ein neuer Weg für den Model Flow, um Open-Source-AI voranzubringen

Überblick über Olmo 3

Zentrale Modellvarianten

Leistung und Benchmarks

Architektur und Trainingsprozess

Effiziente Trainingsinfrastruktur

Transparenz und Tool-Ökosystem

Einsatzmöglichkeiten und Bedeutung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare