OpenAI veröffentlicht ein großangelegtes Open-Weights-Sprachmodell

(openai.com)

7 Punkte von GN⁺ 2025-08-06 | Noch keine Kommentare. | Auf WhatsApp teilen

OpenAI hat erstmals ein großes Open-Weights-Sprachmodell (gpt-oss) veröffentlicht
gpt-oss-120b und gpt-oss-20b stehen zur Verfügung; sie betonen starke Leistung und die Unterstützung vieler Geräte
Mit der Apache 2.0-Lizenz sind kommerzielle Nutzung, Anpassung und freie Verteilung möglich
Für die Sicherheit wurden Trainingsprozesse, externe Expertenreviews und ein umfassendes Sicherheitstestverfahren eingeführt
Das Modell kann auf Hugging Face, GitHub usw. direkt heruntergeladen und genutzt werden; darüber hinaus werden auch Ressourcen für Fine-Tuning, Bereitstellung und Anpassung sowie ein Playground bereitgestellt

OpenAIs offene Modelle

OpenAI hat gpt-oss, ein großes Open-Weights-Inferenzmodell, das auf alle Anwendungsfälle anpassbar ist und überall ausgeführt werden kann, vorgestellt
Die Modelldateien können direkt auf Hugging Face und GitHub heruntergeladen werden, und über ein webbasiertes Playground steht außerdem eine Demo bereit
Die Veröffentlichung erfolgt unter der Apache 2.0-Lizenz, sodass kommerzielle Nutzung, Anpassung und Verbreitung ohne Copyleft- oder Patentstreitigkeiten frei möglich sind

gpt-oss-120b: Ein großes Modell für Rechenzentren sowie leistungsstarke Desktop- und Notebook-Geräte
gpt-oss-20b: Ein mittleres Modell, das auf den meisten Desktops und Notebooks läuft

Hauptmerkmale

Optimierung für Agentenarbeit
- Werkzeugnutzung und Einhaltung von Richtlinien sind Stärken; das Modell eignet sich für agentenbezogene Einsätze wie Websuche und Python-Codeausführung
Anpassung und Fine-Tuning
- Der Hyperparameter reasoning_effort (Abstraktions-/Schlussfolgerungsaufwand) und weitere Hyperparameter sind einstellbar
- Fine-Tuning aller Parameter wird zur erweiterten Anpassung unterstützt
Chain-of-Thought-Transparenz
- Der vollständige Verlauf des Schlussfolgerungsprozesses des Modells ist sichtbar, was Debugging und Vertrauensbewertung vereinfacht
Playground-Angebot
- Es gibt einen Playground, mit dem Entwicklerinnen, Entwickler und Forschende die Modellleistung direkt im Browser testen können

Modellleistung

gpt-oss-120b und gpt-oss-20b wurden direkt mit den OpenAI-Kommerziellen Modellen (OpenAI o3, o4-mini) in zahlreichen Schlüssel-Benchmarks verglichen
Für jedes Modell wurden Ergebnisse in den Bereichen Schlussfolgerung, Wissen und Wettbewerbs-Mathematik transparent ausgewiesen
In einigen Positionen liegt die Leistung nahe an OpenAIs kommerziellen Modellen oder erreicht in bestimmten Tests sogar bessere Werte

Detaillierte Benchmark-Leistung

Schlussfolgerung und Wissen
- MMLU (Massive Multitask Language Understanding)
  - gpt-oss-120b: 90
  - gpt-oss-20b: 85.3
  - OpenAI o3: 93.4
  - OpenAI o4-mini: 93
  - → Gegenüber großen kommerziellen Modellen etwas darunter, aber sehr starke Gesamtleistung bei Schlussfolgerung für ein Open-Modell
- GPQA Diamond
  - gpt-oss-120b: 80.9
  - gpt-oss-20b: 74.2
  - OpenAI o3: 77
  - OpenAI o4-mini: 81.4
  - → Trotz Open-Modell-Natur wird eine nahezu gleichwertige, fortgeschrittene wissensbasierte Frage-Antwort-Leistung wie bei kommerziellen Modellen erreicht
- Humanity’s Last Exam
  - gpt-oss-120b: 19
  - gpt-oss-20b: 17.3
  - OpenAI o3: 24.9
  - OpenAI o4-mini: 17.7
  - → Bei dieser schwierigen Prüfung liegt es unter kommerziellen Modellen, aber 20b und o4-mini liefern beinahe identische Ergebnisse
Wettbewerbs-Mathematik (AIME)
- AIME 2024
  - gpt-oss-120b: 96.6
  - gpt-oss-20b: 96
  - OpenAI o3: 91.6
  - OpenAI o4-mini: 93.4
  - → Für die Version 2024 wurden sogar höhere Werte als bei den kommerziellen Modellen erzielt
- AIME 2025
  - gpt-oss-120b: 97.9
  - gpt-oss-20b: 98.7
  - OpenAI o3: 88.9
  - OpenAI o4-mini: 92.7
  - → Im Bereich der Mathematik werden auch Zahlen gesehen, die die OpenAI-Kommerzmodelle übertreffen
Gesamtbewertung
- Die gpt-oss-Serie beweist insbesondere in Mathematik, Logik und Wissen eine starke Leistung
- Der Abstand zu kommerziellen Modellen ist klein; die Eignung für den realen Einsatz in Services oder Engineering-Anwendungen ist hoch
- Als großes Open-Modell ist sie eine solide wettbewerbsfähige Option für Forschung und Entwicklung, für Agenten und für Anpassungsumgebungen

Sicherheit und Tests

Für alle Modelle gilt ein strenges Sicherheits-Training und -Evaluierung
Entsprechend dem Readiness Framework von OpenAI wurde die Resistenz gegenüber böswilligem Fine-Tuning separat geprüft
In Zusammenarbeit mit externen Sicherheitsexperten wurden für Open-Modelle Sicherheitsstandards definiert

Auf Hugging Face und GitHub können Modelle direkt heruntergeladen und genutzt werden

OpenAI veröffentlicht ein großangelegtes Open-Weights-Sprachmodell

OpenAIs offene Modelle

Hauptmerkmale

Optimierung für Agentenarbeit

Anpassung und Fine-Tuning

Chain-of-Thought-Transparenz

Playground-Angebot

Modellleistung

Detaillierte Benchmark-Leistung

Schlussfolgerung und Wissen

Wettbewerbs-Mathematik (AIME)

Gesamtbewertung

Sicherheit und Tests

Verwandte Beiträge

Noch keine Kommentare.