- OpenAI hat erstmals ein großes Open-Weights-Sprachmodell (gpt-oss) veröffentlicht
- gpt-oss-120b und gpt-oss-20b stehen zur Verfügung; sie betonen starke Leistung und die Unterstützung vieler Geräte
- Mit der Apache 2.0-Lizenz sind kommerzielle Nutzung, Anpassung und freie Verteilung möglich
- Für die Sicherheit wurden Trainingsprozesse, externe Expertenreviews und ein umfassendes Sicherheitstestverfahren eingeführt
- Das Modell kann auf Hugging Face, GitHub usw. direkt heruntergeladen und genutzt werden; darüber hinaus werden auch Ressourcen für Fine-Tuning, Bereitstellung und Anpassung sowie ein Playground bereitgestellt
OpenAIs offene Modelle
- OpenAI hat gpt-oss, ein großes Open-Weights-Inferenzmodell, das auf alle Anwendungsfälle anpassbar ist und überall ausgeführt werden kann, vorgestellt
- Die Modelldateien können direkt auf Hugging Face und GitHub heruntergeladen werden, und über ein webbasiertes Playground steht außerdem eine Demo bereit
- Die Veröffentlichung erfolgt unter der Apache 2.0-Lizenz, sodass kommerzielle Nutzung, Anpassung und Verbreitung ohne Copyleft- oder Patentstreitigkeiten frei möglich sind
- gpt-oss-120b: Ein großes Modell für Rechenzentren sowie leistungsstarke Desktop- und Notebook-Geräte
- gpt-oss-20b: Ein mittleres Modell, das auf den meisten Desktops und Notebooks läuft
Hauptmerkmale
-
Optimierung für Agentenarbeit
- Werkzeugnutzung und Einhaltung von Richtlinien sind Stärken; das Modell eignet sich für agentenbezogene Einsätze wie Websuche und Python-Codeausführung
-
Anpassung und Fine-Tuning
- Der Hyperparameter
reasoning_effort (Abstraktions-/Schlussfolgerungsaufwand) und weitere Hyperparameter sind einstellbar
- Fine-Tuning aller Parameter wird zur erweiterten Anpassung unterstützt
-
Chain-of-Thought-Transparenz
- Der vollständige Verlauf des Schlussfolgerungsprozesses des Modells ist sichtbar, was Debugging und Vertrauensbewertung vereinfacht
-
Playground-Angebot
- Es gibt einen Playground, mit dem Entwicklerinnen, Entwickler und Forschende die Modellleistung direkt im Browser testen können
Modellleistung
- gpt-oss-120b und gpt-oss-20b wurden direkt mit den OpenAI-Kommerziellen Modellen (OpenAI o3, o4-mini) in zahlreichen Schlüssel-Benchmarks verglichen
- Für jedes Modell wurden Ergebnisse in den Bereichen Schlussfolgerung, Wissen und Wettbewerbs-Mathematik transparent ausgewiesen
- In einigen Positionen liegt die Leistung nahe an OpenAIs kommerziellen Modellen oder erreicht in bestimmten Tests sogar bessere Werte
Detaillierte Benchmark-Leistung
-
Schlussfolgerung und Wissen
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Gegenüber großen kommerziellen Modellen etwas darunter, aber sehr starke Gesamtleistung bei Schlussfolgerung für ein Open-Modell
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Trotz Open-Modell-Natur wird eine nahezu gleichwertige, fortgeschrittene wissensbasierte Frage-Antwort-Leistung wie bei kommerziellen Modellen erreicht
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Bei dieser schwierigen Prüfung liegt es unter kommerziellen Modellen, aber 20b und o4-mini liefern beinahe identische Ergebnisse
-
Wettbewerbs-Mathematik (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Für die Version 2024 wurden sogar höhere Werte als bei den kommerziellen Modellen erzielt
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → Im Bereich der Mathematik werden auch Zahlen gesehen, die die OpenAI-Kommerzmodelle übertreffen
-
Gesamtbewertung
- Die gpt-oss-Serie beweist insbesondere in Mathematik, Logik und Wissen eine starke Leistung
- Der Abstand zu kommerziellen Modellen ist klein; die Eignung für den realen Einsatz in Services oder Engineering-Anwendungen ist hoch
- Als großes Open-Modell ist sie eine solide wettbewerbsfähige Option für Forschung und Entwicklung, für Agenten und für Anpassungsumgebungen
Sicherheit und Tests
- Für alle Modelle gilt ein strenges Sicherheits-Training und -Evaluierung
- Entsprechend dem Readiness Framework von OpenAI wurde die Resistenz gegenüber böswilligem Fine-Tuning separat geprüft
- In Zusammenarbeit mit externen Sicherheitsexperten wurden für Open-Modelle Sicherheitsstandards definiert
Noch keine Kommentare.