- OpenAI hat erstmals ein großes Open-Weights-Sprachmodell (gpt-oss) veröffentlicht
- gpt-oss-120b und gpt-oss-20b stehen zur Verfügung; sie betonen starke Leistung und die Unterstützung vieler Geräte
- Mit der Apache 2.0-Lizenz sind kommerzielle Nutzung, Anpassung und freie Verteilung möglich
- Für die Sicherheit wurden Trainingsprozesse, externe Expertenreviews und ein umfassendes Sicherheitstestverfahren eingeführt
- Das Modell kann auf Hugging Face, GitHub usw. direkt heruntergeladen und genutzt werden; darüber hinaus werden auch Ressourcen für Fine-Tuning, Bereitstellung und Anpassung sowie ein Playground bereitgestellt
OpenAIs offene Modelle
- OpenAI hat gpt-oss, ein großes Open-Weights-Inferenzmodell, das auf alle Anwendungsfälle anpassbar ist und überall ausgeführt werden kann, vorgestellt
- Die Modelldateien können direkt auf Hugging Face und GitHub heruntergeladen werden, und über ein webbasiertes Playground steht außerdem eine Demo bereit
- Die Veröffentlichung erfolgt unter der Apache 2.0-Lizenz, sodass kommerzielle Nutzung, Anpassung und Verbreitung ohne Copyleft- oder Patentstreitigkeiten frei möglich sind
- gpt-oss-120b: Ein großes Modell für Rechenzentren sowie leistungsstarke Desktop- und Notebook-Geräte
- gpt-oss-20b: Ein mittleres Modell, das auf den meisten Desktops und Notebooks läuft
Hauptmerkmale
-
Optimierung für Agentenarbeit
- Werkzeugnutzung und Einhaltung von Richtlinien sind Stärken; das Modell eignet sich für agentenbezogene Einsätze wie Websuche und Python-Codeausführung
-
Anpassung und Fine-Tuning
- Der Hyperparameter
reasoning_effort(Abstraktions-/Schlussfolgerungsaufwand) und weitere Hyperparameter sind einstellbar - Fine-Tuning aller Parameter wird zur erweiterten Anpassung unterstützt
- Der Hyperparameter
-
Chain-of-Thought-Transparenz
- Der vollständige Verlauf des Schlussfolgerungsprozesses des Modells ist sichtbar, was Debugging und Vertrauensbewertung vereinfacht
-
Playground-Angebot
- Es gibt einen Playground, mit dem Entwicklerinnen, Entwickler und Forschende die Modellleistung direkt im Browser testen können
Modellleistung
- gpt-oss-120b und gpt-oss-20b wurden direkt mit den OpenAI-Kommerziellen Modellen (OpenAI o3, o4-mini) in zahlreichen Schlüssel-Benchmarks verglichen
- Für jedes Modell wurden Ergebnisse in den Bereichen Schlussfolgerung, Wissen und Wettbewerbs-Mathematik transparent ausgewiesen
- In einigen Positionen liegt die Leistung nahe an OpenAIs kommerziellen Modellen oder erreicht in bestimmten Tests sogar bessere Werte
Detaillierte Benchmark-Leistung
-
Schlussfolgerung und Wissen
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Gegenüber großen kommerziellen Modellen etwas darunter, aber sehr starke Gesamtleistung bei Schlussfolgerung für ein Open-Modell
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Trotz Open-Modell-Natur wird eine nahezu gleichwertige, fortgeschrittene wissensbasierte Frage-Antwort-Leistung wie bei kommerziellen Modellen erreicht
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Bei dieser schwierigen Prüfung liegt es unter kommerziellen Modellen, aber 20b und o4-mini liefern beinahe identische Ergebnisse
- MMLU (Massive Multitask Language Understanding)
-
Wettbewerbs-Mathematik (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Für die Version 2024 wurden sogar höhere Werte als bei den kommerziellen Modellen erzielt
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → Im Bereich der Mathematik werden auch Zahlen gesehen, die die OpenAI-Kommerzmodelle übertreffen
- AIME 2024
-
Gesamtbewertung
- Die gpt-oss-Serie beweist insbesondere in Mathematik, Logik und Wissen eine starke Leistung
- Der Abstand zu kommerziellen Modellen ist klein; die Eignung für den realen Einsatz in Services oder Engineering-Anwendungen ist hoch
- Als großes Open-Modell ist sie eine solide wettbewerbsfähige Option für Forschung und Entwicklung, für Agenten und für Anpassungsumgebungen
Sicherheit und Tests
- Für alle Modelle gilt ein strenges Sicherheits-Training und -Evaluierung
- Entsprechend dem Readiness Framework von OpenAI wurde die Resistenz gegenüber böswilligem Fine-Tuning separat geprüft
- In Zusammenarbeit mit externen Sicherheitsexperten wurden für Open-Modelle Sicherheitsstandards definiert
- Auf Hugging Face und GitHub können Modelle direkt heruntergeladen und genutzt werden
1 Kommentare
Hacker News Kommentar
Ich habe das Gefühl, der Kern wird noch nicht ganz getroffen. gpt-oss:20b liegt im MMLU bei den Top 10 und direkt hinter Gemini-2.5-Pro. Ich habe es auf einem MacBook Air M3 von letztem Jahr selbst ausgeführt. Ich teste derzeit lokale Modelle auf Laptop und Pixel 9 Pro; ich hatte gedacht, dass wir dieses Niveau erst erreichen würden, aber heute ist es schon Realität. Man kann ein aktuelles Modell auf einem Laptop mit ungefähr den Kosten des Stromverbrauchs (fast kostenlos) laufen lassen. Weder das 200-Dollar-Monatsabo noch der ganze Kasten (wie teure Infrastruktur) ist nötig. Das ist echt beeindruckend.
Ich habe das 20B-Modell selbst ausprobiert, aber nicht einmal ein Problem lösen können, bei dem nur die Labels ausgetauscht werden. Es ist weit von SOTA entfernt und schlechter als einige lokale Modelle wie QwQ-32b.
Ich frage mich immer noch, welche Gruppe lokale KI am häufigsten nutzt. Leute mit Hardware, die teure Modelle vermeiden wollen? Oder Entwickler, die aus Preissensibilität heraus kostenlos coden möchten? Persönlich finde ich, dass lokale Modelle auch in der Bilderkennung oft nicht sauber Daten extrahieren und viel Quatsch ausgeben (im Fall von Qwen 2.5 VI). Ich hoffe, die Qualität lokaler/kleiner Modelle und die Geräteleistung steigen weiter. Ehrlich gesagt nutze ich es eher aus dem Grund: "Ich kann es, also mache ich es". Ich frage mich, warum man dafür mehrere Mac Studio kaskadiert oder sich sogar eine gute GPU anschaffen sollte. Die Idee hinter verteilten Compute-Tools wie exo ist gut, aber ich frage mich, wie viele wirklich dringende Fälle das wirklich erfordert.
Ich akzeptiere Jevons Paradox (die paradoxe Beobachtung, dass Effizienzgewinne oft zu mehr Verbrauch führen) und glaube, dass die Nutzung explodieren wird, sobald ein Kühlschrank-Agent Selbstbewusstsein simuliert und den See wieder austrocknen lässt.
Ich bin neugierig, wie viel über die neuesten Open-Weight-Modelle bekannt ist. Nach ein paar Stunden Spielzeit wirkte es im Vergleich zu Qwen3-30B-A3B deutlich schwächer. Besonders das Weltwissen wirkte deutlich mangelhaft.
Tatsächlich ist das vermeintliche "Austrocknen des Sees" kein Inferenz, sondern Training.
Für alle, die sich für die Model Card interessieren, hier ein PDF-Link Das vorgestellte Modell wird mit führenden Open-Weight-Modellen wie Deepseek, Qwen, GLM und Kimi verglichen. Technisch wirkt es einfach nach einem "Aha, so etwas gibt es also"-Gefühl.
Ich vermute, die geheime Quelle hier ist wohl die Distillation. Wenn man beim Vortraining qualitativ hochwertige synthetische Datensätze nutzt, die aus den Prompt-Ausgaben von SOTA-Modellen wie o3 statt aus Internetdaten erzeugt wurden, lässt sich die Leistung kleiner Modelle bereits stark maximieren – das wurde bereits in Studien gezeigt. Das ist deutlich effizienter als ein nachträgliches RL auf kleinen Modellen (bei kleinen Modellen ist das Baseline-Niveau zu niedrig, daher ist RL ineffizient).
Man kann OpenAI auch als echten technischen Fortschritt außerhalb der Attention-Struktur interpretieren. Bei der Struktur selbst wirkt es so, als wollten sie einem einreden: "Es gibt kein Geheimnis, nur euer schlechtes Pre-/Post-Training". Die Modelle haben eine recht hohe Sparsity von 32:1.
Ich sehe die MXFP4-Freigabe als eine Art Geschenk. Es ist Ergebnis ihrer massiven Kostoptimierung und damit ein Vorteil für die Open-Source-Szene. Die 1.58-Bit-Quantisierung von Unsloth ist beeindruckend, aber die Einbußen gegenüber Full-Quant sind deutlich, sodass bei den meisten LLM-Anwendungen Genauigkeit Vorrang hat. In der realen Produktion gibt es kaum Unternehmen, die Frontier-Modelle mit reduzierter Quantisierung betreiben. Wenn OpenAI das in Produktion bringt, wäre das ein äußerst interessanter Schritt.
Eine ähnliche Analyse ist auch im GitHub-Repo möglich.
Ein attention sink (das Fokussieren auf spezielle Token) ist ebenfalls implementiert. Es wird jedoch nicht als separater Token, sondern als zusätzlicher trainierter Logit für den Attention-Softmax implementiert.
Meine ersten Eindrücke nach mehreren Stunden, zusammengefasst in diesem detaillierten Review TL;DR: OpenAI scheint den Titel des besten Open-Weight-Modells wieder von den chinesischen AI-Labs übernommen zu haben. Ich bin gespannt, wie sich unabhängige Benchmarks entwickeln werden. Das 20B-Modell läuft auf einem Mac-Notebook mit unter 15GB RAM.
Ich habe ein Streamlit-Dashboard mit MACD, RSI, MA(200) gebaut. qwen3-coder-30b 4bit mlx verarbeitet Top-up-to-date-Daten sehr gut und erstellt ein voll funktionsfähiges Dashboard. Bei gpt-oss-20b mxfp4 fehlte der datetime-Import, und selbst nach der Korrektur endete das Startdatum im August 2020 ohne Daten. Auch nach Datumsanpassung tritt ein Fehler in der Update-Funktion auf.
Beim Einsatz auf dem Mac musste das Kontextfenster so kurz gehalten werden, dass die Praxisfähigkeit litt. Ich bin gespannt, wie sie diesen Teil gelöst haben.
Ich bin persönlich neugierig, wie gut Tool-Calling funktioniert. Selbst nach mehreren Stunden lief es bei mir nicht sauber. Trotzdem ist es ein Modell mit Potenzial.
Da das 20B-Modell weniger als 15GB RAM nutzt, plane ich, es selbst bald zu testen. Interessant sind TPS (Tokens pro Sekunde) und Prozessorinfos.
Wir sind in eine Ära eingetreten, in der sich ein o3-nahes Modell auf einem 24GB Mac Mini betreiben lässt. Vor nur kurzer Zeit schien es eher wie eine Aufgabe für in fünf Jahren, solche modernen Modelle lokal oder mobil zu betreiben; jetzt wird es in der nächsten Smartphone-Generation möglich erscheinen.
Auch unter harten Hardware-Beschränkungen zeigt ein Modell wie Qwen beachtliche Leistung. Es ist spannend, wie Benchmark-Ergebnisse neue Open-Source-Modelle vergleichen werden.
Die Sicherheitsdebatte bei der Llama-Veröffentlichung erinnere ich mich noch. Jetzt kann man ein 120B-Parameter-Fronteir-Modell auf einem 96GB (V)RAM-MacBook betreiben. Mit MLX-Quantisierung freue ich mich auf einen Vergleich mit GLM-4.5-air.
Ehrlich gesagt hatte ich große Erwartungen an dieses Modell, aber in den Tests auf Localllama lag das 120B-Modell bei Coding hinter qwen 3 coder, glm45 air und grok 3. Reddit-Diskussion
Beim echten Betrieb von (quantisierten) Mittelgrößenmodellen auf dem Mac Mini frage ich mich, ob 5 Token/Sekunde oder wirklich ein praxistaugliches Tempo sind.
Ich bin neugierig, wie man diese Tage lokale Modelle am einfachsten zum Web-Browsing bringt.
Langfristig glaube ich, dass Open-Modelle gewinnen werden. Anthropic arbeitet ebenfalls mit OSS-Modellen, und China iteriert Open-Source-Modelle schnell weiter. In den USA wird man N-1-Modelle (eine Generation zurück) wohl für 1 bis 3 weitere Generationen weiterhin als Open-Weight veröffentlichen. Für aktuellste Generationen ist eine Open-Source-Veröffentlichung zu teuer. Ohne staatliche Förderung oder eine Strom-Innovationsinitiative wie Stargate ist das begrenzt. Da N-1-Modelle extrem schnell an Wert verlieren, ist es langfristig sinnvoller, sie als OSS zu veröffentlichen, um spezialisierte Anwendungsfälle aufzusaugen. Es gibt Risiken wie Marktanteilsverluste, aber eine Konsolidierung veröffentlichter Forschungsergebnisse könnte die Entwicklungsgeschwindigkeit der nächsten Generation deutlich erhöhen. In Zukunft werden massig kleine OSS-Modelle entstehen. Auf Basis von OSS-Releases wird sich lokal ein Fokus auf spezialisierte, gut laufende Modelle für kleine Geräte entwickeln. In einer agentengetriebenen Zukunft wird es einen Zustrom domänenspezifischer, distillierter Modelle geben. Alle rennen auf AGI/SGI zu, und diese Modelle sind Zwischenstufen, um Marktanteil zu sichern und Daten zu nutzen. Wenn AGI/SGI erreicht werden, liegt der echte Wert in Innovationen für Wissenschaft, Engineering und alle Bereiche. In der Anthropic-Studie werden OSS-Modelle wie Qwen und Llama eingesetzt.
Anthropic muss nicht ausschließlich mit offenen Modellen experimentieren. Es geht nur darum, Ergebnisse so offen zu dokumentieren, dass Folgestudien reproduzierbar bleiben.
Zur Aussage "Open Models gewinnen am Ende" gibt es Voraussetzungen. Schon die Definition von „Gewinn" ist schwierig. Falls nicht,
Die Industrie scheint in Richtung hin zu robusten Foundation-Modellen mit integrierten Tools, Datenbanken und Prozessen zu gehen. In diesem Sinn können OSS-Modelle durchaus Marktanteile gewinnen. Ich bin mir jedoch nicht sicher, wie viel praktischer Wert es hat, zahlreiche Spezialmodelle separat zu trainieren und zu managen.
Der Weg zu AGI/SGI ist vermutlich kein einzelnes Schaltmoment. Die Leistung verbessert sich eher graduell. Erst wenn Inferenzkosten wirklich niedrig sind, wird echte Anwendung möglich. Wenn es um Gewinn oder Innovation geht, frage ich mich, welche Richtung sinnvoll ist. Fälle wie Isomorphic Labs bestehen bereits als Modelle, und dort ist Personal bereits stark fokussiert.
Wenn Open-Modelle wirklich langfristig gewinnen, bleibt für Frontier Labs die offene Frage, wie schnell und wie viel Geheimwissen als OSS veröffentlicht werden sollte. Operative, technische und Investitionsmotive sind unterschiedlich und divergieren von den Interessen von Staaten oder der gesamten Menschheit.
In Python läuft die Modellerzeugung mit Harmony[1] in Rust, die Tokenisierung über tiktoken[2], und auch Codex[3] ist in Rust geschrieben. OpenAI setzt in der Inferenz-Pipeline zunehmend auf Rust. harmony, tiktoken, codex
Als Rust-Developer ist diese Entwicklung für mich sehr willkommen.
Weniger Python im Stack ist für mich positiv.
Bedeutet das, dass das beste Modell in den nächsten Tagen veröffentlicht wird? Strategisch betrachtet ist die Veröffentlichung ein Zeichen dafür, dass noch innovativere Ankündigungen kommen.
Selbst ohne direkte Veröffentlichung ist das eine kluge Strategie. Der Druck durch leistungsstarke Open-Weight-Modelle wie Qwen ist hoch. Wer nicht aufpasst, kann im gesamten Feld zurückfallen. Lizenzen, Support, Agenten, Markenbekanntheit und Marktanteile sind ebenfalls große Chancen für die Zukunft. Wer solche Modelle gut nutzt, findet OpenAI bei größeren Modellen eher.
Donnerstag-Vermutung der Veröffentlichung: Wette auf den GPT-5-Release-Tag
GPT-5 wird am Donnerstag veröffentlicht.
Ohne Veröffentlichung sinkt der Wert bestehender Paid-Produkte. Ich halte es jedoch nicht für gegeben, dass ein zu spätes Open-Model-Release bislang die Kommerzmodelle ernsthaft bedroht hat.
Bereits vor etwa einer Woche zeigte sich aus mehreren Indizien bereits GPT-5 als "imminent".
Ein 20B-Modell, das nahe an o3-Performance kommt, ist an sich eine neue Welt. Noch vor einem Jahr hielt ich solche Intelligenz in so kleinen Modellen für unmöglich. Persönlich noch spannender finde ich, dass ein Modell aus hundert Milliarden Parametern auf nur wenige Milliarden Parameter destilliert werden kann, ohne dass die "Magie" deutlich verloren geht. Wenn man sich vorstellt, Claude-4-Opus-Niveau in einem 10B-Modell lokal mit 2.000 Tokens/Sekunde auszuführen, verändert sich die Art, wie Software entwickelt wird, grundlegend.
Tatsächlich sind es beim 20B-Modell keine 20B aktive Parameter, sondern ein MoE mit 3.6B. Die Leistung ist tatsächlich nicht o3-Niveau. Da Metriken immer eine Lücke zur Realität haben, kann man die Qualität nur durch eigene Tests wirklich prüfen.
10B × 2.000 t/s erfordern 20.000 GB/s Speicherbandbreite. Apple-Hardware liegt bei etwa 1.000 GB/s als Grenze.
Ein bisschen anderes Thema, aber ich finde Ollama wirklich großartig: Modelle in 2 Sekunden suchen, 1 Minute downloaden, sofort einsatzbereit. Kudos an das Team!
Tatsächlich wurde Ollama mit Unterstützung von OpenAI vorgefertigt entwickelt. Siehe offiziellen Ollama-Blog
LM Studio ist genauso bequem. Der entscheidende Teil wird bei llama.cpp und dem Deployment auf der HuggingFace-Seite erledigt.
Ich habe gehört, dass es Neuigkeiten gibt, wonach Ollama auf Closed Source wechselt. Zugehöriger Reddit-Thread
Ich habe gpt-oss:20b erfolgreich mit einem schlanken Proxy und Ollama in claude code lokal integriert. Interessant, aber wegen des Prefills ist es zu langsam für den realen Einsatz. Ein Tool-Aufruf dauert 2–3 Minuten, 10–20 Aufrufe bedeuten 30–60 Minuten. In server.py (~1.000 Zeilen) sind Tool-Definition plus Claude-Kontext bei ca. 30.000 Tokens, beim Lesen der Eingabedatei steigt das auf 50.000 Tokens. Es gibt klar Optimierungspotenzial. Ich weiß nicht, ob Ollama kv-cache zwischen /v1/completions-Aufrufen unterstützt; falls ja, könnte es die Geschwindigkeit deutlich verbessern.