- Olmo 3 veröffentlicht nicht nur das Endergebnis des Modells, sondern den gesamten Entwicklungsprozess (model flow) und bietet damit vollständige Nachverfolgbarkeit bis hin zu Daten, Code und Checkpoints
- Es besteht aus vier Modellvarianten — Base, Think, Instruct, RL Zero — in den Größen 7B und 32B Parameter und eignet sich damit für verschiedene Forschungszwecke wie Reasoning, Dialog und Reinforcement Learning
- Auf Basis der Datensätze Dolma 3 und Dolci werden transparente Trainingsdaten im Umfang von rund 9,3 Billionen Tokens aus Web, Code, Mathematik, Wissenschaft und mehr offengelegt
- Mit dem Tool OlmoTrace lässt sich in Echtzeit nachverfolgen, aus welchen Trainingsdaten die Ausgabe eines Modells stammt, was Transparenz und Vertrauenswürdigkeit stärkt
- Durch die vollständig offene Veröffentlichung kann jeder an bestimmten Phasen des Modells eingreifen, es ändern oder erneut trainieren und so ein überprüfbares KI-Forschungsökosystem aufbauen
Überblick über Olmo 3
- Olmo 3 ist eine von Allen Institute for AI (Ai2) veröffentlichte Open-Source-Sprachmodellfamilie der nächsten Generation, deren Kernmerkmal die Offenlegung des gesamten Entwicklungsablaufs (model flow) ist
- Der Model Flow umfasst alle Schritte wie Datensammlung, Vorverarbeitung, Training, Fine-Tuning und Reinforcement Learning
- Dadurch können Forschende und Entwickler die interne Funktionsweise des Modells analysieren und verändern
- Olmo 3 ist in Versionen mit 7B und 32B Parametern verfügbar und kann in unterschiedlichen Umgebungen vom Notebook bis zum Forschungscluster ausgeführt werden
Zentrale Modellvarianten
- Olmo 3-Base (7B, 32B)
- Ein vollständig offenes Basismodell mit Spitzenleistung in verschiedenen Bereichen wie Code, Mathematik und Textverständnis
- Es konkurriert mit Modellen derselben Klasse wie Qwen 2.5 und Gemma 3 und unterstützt einen erweiterten Kontext von 65K Tokens
- Olmo 3-Think (7B, 32B)
- Ein auf Reasoning spezialisiertes Modell, das auf mehrstufige Schlussfolgerungsprobleme trainiert wurde und sich für RL-Forschung sowie Experimente zum langfristigen Denken eignet
- Das 32B-Modell erreicht Leistung auf Spitzenniveau seiner Klasse bei MATH, OMEGA, BigBenchHard und weiteren Benchmarks
- Olmo 3-Instruct (7B)
- Ein für Dialog, Befehlsausführung und Tool-Nutzung optimiertes Modell, das Qwen 2.5, Gemma 3 und Llama 3.1 erreicht oder übertrifft
- Olmo 3-RL Zero (7B)
- Bietet einen vollständig offenen Pfad zur Bewertung von Reinforcement-Learning-Algorithmen und enthält Checkpoints für vier Domänen wie Mathematik, Code und Befolgen von Anweisungen
Leistung und Benchmarks
- Olmo 3-Base 32B übertrifft vollständig offene Modelle wie Marin 32B und Apertus 70B
- Es erzielt starke Ergebnisse in wichtigen Benchmarks, darunter 80,5 Punkte bei GSM8k (Mathematik) und 66,5 Punkte bei HumanEval (Code)
- Olmo 3-Think 32B zeigt eine ähnliche oder nahekommende Leistung wie Qwen 3 32B und erreicht Bestwerte unter anderem bei HumanEvalPlus und IFEval
- Olmo 3-Instruct 7B erzielt im Bereich Safety mit 87,3 Punkten den höchsten Wert unter den Vergleichsmodellen
Architektur und Trainingsprozess
- Verwendet eine decoder-only Transformer-Architektur und besteht aus einem dreistufigen Pretraining (Grundlage → Mittelstufe → Langkontext) sowie einem dreistufigen Post-Training (SFT → DPO → RLVR)
- Checkpoints für jede Phase werden veröffentlicht, sodass Forschende das Modell an jedem gewünschten Punkt forken oder damit experimentieren können
- Mit den Datensätzen Dolma 3 (rund 9,3 Billionen Tokens) und Dolci wird Datentransparenz über den gesamten Trainingsprozess hinweg sichergestellt
- Zu den Detailkomponenten gehören Dolma 3 Mix (6 Billionen Tokens), Dolmino (100B Tokens) und Longmino (50B Tokens)
- Dolci stellt für jede Phase — SFT, DPO und RLVR — eigene Datenmischungen bereit
Effiziente Trainingsinfrastruktur
- Training mit bis zu 1.024 H100-GPUs, Verarbeitungsgeschwindigkeit von 7,7K Tokens/Sekunde beim 7B-Modell
- Durch in-flight weight updates, continuous batching und verbessertes Threading wurde die Effizienz des RL-Trainings um das Vierfache gesteigert
- Das 32B-Modell von Olmo 3 ist als Gleichgewichtspunkt zwischen Leistung und Zugänglichkeit ausgelegt, sodass Forschende es selbst feinabstimmen können
Transparenz und Tool-Ökosystem
- Mit OlmoTrace lässt sich die Verbindung zwischen Modellausgaben und Trainingsdaten visuell nachverfolgen
- Sämtliche Datensätze und Toolchains werden als Open Source veröffentlicht
- Dazu gehören Olmo-core (Framework für verteiltes Training), Open Instruct (Post-Training-Pipeline), datamap-rs (Datenbereinigung), duplodocus (Deduplizierung) und OLMES (Evaluierungs-Toolkit)
- Forschende können Zwischenstufen des modellinternen Reasonings und Fehlerpunkte analysieren, um die Ursachen des Modellverhaltens zu verstehen
Einsatzmöglichkeiten und Bedeutung
- Olmo 3 unterstützt den Aufbau vertrauenswürdiger KI-Systeme in Forschung, Bildung und Anwendungsentwicklung
- Da alle Phasen des Modells offengelegt sind, werden Reproduzierbarkeit, Überprüfbarkeit und kollaborative Forschung gefördert
- Ai2 erklärt, „wahre Open-Source-AI bedeutet nicht nur Zugang, sondern Vertrauen, Verantwortung und gemeinsame Weiterentwicklung“
- Mit vollständiger Transparenz präsentiert Olmo 3 ein neues offenes Forschungsparadigma, in dem jeder das Innere von KI verstehen und verbessern kann
1 Kommentare
Hacker-News-Kommentare
Ohne solche Transparenz wird die breite Öffentlichkeit wohl keine Möglichkeit haben, große LLM-basierte Systeme zu verstehen oder zu kontrollieren.
Am Ende besteht die Gefahr, dass Big Tech, Autoritäre oder die KI selbst nach Belieben handeln.
Ich denke, es braucht eine Struktur, in der eine dritte Instanz Audits durchführt und Transparenzberichte bereitstellt.
Ich hoffe, dass solche Versuche weiter wiederholt werden.
Es ist eine falsche Praxis, etwas allein wegen offengelegter Gewichte als Open Source zu bezeichnen.
Echte Open-Source-Modelle brauchen vielleicht einen neuen Namen wie „transparente Modelle“.
Aber nach meiner Auslegung und dem talmudischen Recht wäre sie erlaubt, und GPT5.1 stimmte meiner Auslegung zu.
Solche Informationen sollten eher suchbasiert, etwa über RAG, geholt werden.
Ein Modell, das mit „Ich weiß es nicht“ antwortet, wäre wohl nützlicher.
Kleine Modelle neigen dazu, Edge Cases zwanghaft verarbeiten zu wollen.
Wenn man ihnen deshalb einen Ausweg wie „edge_case“ gibt, funktionieren sie viel besser.
Ich wünschte, es gäbe ein zentrales Repository, das solche Prompt-Hacking-Tipps sammelt.
Dort heißt es, passende Trainingsdaten-Dokumente zur Modellantwort würden angezeigt.
Tatsächlich scheint es aber nur einfache N-Gram-Treffer zu finden, daher ist das kaum echte Nachvollziehbarkeit.
Manchmal kamen die Ergebnisse sogar aus Dokumenten, die nichts mit der Frage zu tun hatten.
N-Gram-Erklärung
Es soll vielmehr zeigen, von welchen Trainingsdaten-Fragmenten das Modell beeinflusst wurde.
So lässt sich zum Beispiel nachvollziehen, warum verschiedene Modelle denselben Witz oder dieselbe Zahl wiederholen.
7B passt zu einer 8-GB-GPU, 32B zu einer 24-GB-GPU, und ein 20B-Modell passt genau zu einer 16-GB-GPU.
Es laufen weiterhin Experimente, um die optimale Größe zu finden.
Persönlich hoffe ich, dass GPUs irgendwann erweiterbaren VRAM bekommen.
Vermutlich ist das ein OpenWebUI-Bug.
Bei GPT-OSS war das auch so, und bei OLMo dürfte sich jetzt Ähnliches wiederholen.
7B antwortet mit „Hi! I'm Olmo 3…“, 32B mit „Hi! I'm Olmo…“.
Am Ende wirkt selbst eine einfache Begrüßung wie eine philosophische Auslegung.
Wenn man die gesamte Pipeline offenlegen will, müssen solche Daten eben auch enthalten sein.
Trotzdem wäre es wohl besser gewesen, die Vorschau so anzupassen, dass solche Stellen nicht sofort sichtbar sind.
Die meisten scheinen für On-Device-Inferenz gedacht zu sein, aber gibt es noch andere Fälle?
Viele Unternehmen, die feinabgestimmte Qwen 3-Modelle nutzen, könnten auf Olmo 32B umsteigen.
Die Leistung war besser als bei kleinen Nicht-LLMs.
Es ist schneller als eine einfache Google-Suche und erledigt auch Terminal-Befehle, Dateibrowsing und Notizenorganisation.
Dank der Geschwindigkeit (90tok/s) und der niedrigen Latenz lassen sich kleine Aufgaben viel effizienter erledigen.
Dagegen ist Sonnet 4.5 langsam und subtil falsch, wodurch es für den echten Einsatz ineffizient ist.
Es ist schnell (90tok/s) und deckt die meisten Aufgaben ab.
Solche Forschung ist wichtig, aber dichte (dense) Modelle werden es schwer haben, bei dieser Geschwindigkeit mitzuhalten.
In der nächsten Olmo-Version wollen wir ebenfalls MoE einführen.
Man konnte sich damit sogar natürlich auf Esperanto unterhalten.