7 Punkte von GN⁺ 2025-08-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • OpenAI hat erstmals ein großes Open-Weights-Sprachmodell (gpt-oss) veröffentlicht
  • gpt-oss-120b und gpt-oss-20b stehen zur Verfügung; sie betonen starke Leistung und die Unterstützung vieler Geräte
  • Mit der Apache 2.0-Lizenz sind kommerzielle Nutzung, Anpassung und freie Verteilung möglich
  • Für die Sicherheit wurden Trainingsprozesse, externe Expertenreviews und ein umfassendes Sicherheitstestverfahren eingeführt
  • Das Modell kann auf Hugging Face, GitHub usw. direkt heruntergeladen und genutzt werden; darüber hinaus werden auch Ressourcen für Fine-Tuning, Bereitstellung und Anpassung sowie ein Playground bereitgestellt

OpenAIs offene Modelle

  • OpenAI hat gpt-oss, ein großes Open-Weights-Inferenzmodell, das auf alle Anwendungsfälle anpassbar ist und überall ausgeführt werden kann, vorgestellt
  • Die Modelldateien können direkt auf Hugging Face und GitHub heruntergeladen werden, und über ein webbasiertes Playground steht außerdem eine Demo bereit
  • Die Veröffentlichung erfolgt unter der Apache 2.0-Lizenz, sodass kommerzielle Nutzung, Anpassung und Verbreitung ohne Copyleft- oder Patentstreitigkeiten frei möglich sind
  • gpt-oss-120b: Ein großes Modell für Rechenzentren sowie leistungsstarke Desktop- und Notebook-Geräte
  • gpt-oss-20b: Ein mittleres Modell, das auf den meisten Desktops und Notebooks läuft

Hauptmerkmale

  • Optimierung für Agentenarbeit

    • Werkzeugnutzung und Einhaltung von Richtlinien sind Stärken; das Modell eignet sich für agentenbezogene Einsätze wie Websuche und Python-Codeausführung
  • Anpassung und Fine-Tuning

    • Der Hyperparameter reasoning_effort (Abstraktions-/Schlussfolgerungsaufwand) und weitere Hyperparameter sind einstellbar
    • Fine-Tuning aller Parameter wird zur erweiterten Anpassung unterstützt
  • Chain-of-Thought-Transparenz

    • Der vollständige Verlauf des Schlussfolgerungsprozesses des Modells ist sichtbar, was Debugging und Vertrauensbewertung vereinfacht
  • Playground-Angebot

    • Es gibt einen Playground, mit dem Entwicklerinnen, Entwickler und Forschende die Modellleistung direkt im Browser testen können

Modellleistung

  • gpt-oss-120b und gpt-oss-20b wurden direkt mit den OpenAI-Kommerziellen Modellen (OpenAI o3, o4-mini) in zahlreichen Schlüssel-Benchmarks verglichen
  • Für jedes Modell wurden Ergebnisse in den Bereichen Schlussfolgerung, Wissen und Wettbewerbs-Mathematik transparent ausgewiesen
  • In einigen Positionen liegt die Leistung nahe an OpenAIs kommerziellen Modellen oder erreicht in bestimmten Tests sogar bessere Werte

Detaillierte Benchmark-Leistung

  • Schlussfolgerung und Wissen

    • MMLU (Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → Gegenüber großen kommerziellen Modellen etwas darunter, aber sehr starke Gesamtleistung bei Schlussfolgerung für ein Open-Modell
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → Trotz Open-Modell-Natur wird eine nahezu gleichwertige, fortgeschrittene wissensbasierte Frage-Antwort-Leistung wie bei kommerziellen Modellen erreicht
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → Bei dieser schwierigen Prüfung liegt es unter kommerziellen Modellen, aber 20b und o4-mini liefern beinahe identische Ergebnisse
  • Wettbewerbs-Mathematik (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • → Für die Version 2024 wurden sogar höhere Werte als bei den kommerziellen Modellen erzielt
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • → Im Bereich der Mathematik werden auch Zahlen gesehen, die die OpenAI-Kommerzmodelle übertreffen
  • Gesamtbewertung

    • Die gpt-oss-Serie beweist insbesondere in Mathematik, Logik und Wissen eine starke Leistung
    • Der Abstand zu kommerziellen Modellen ist klein; die Eignung für den realen Einsatz in Services oder Engineering-Anwendungen ist hoch
    • Als großes Open-Modell ist sie eine solide wettbewerbsfähige Option für Forschung und Entwicklung, für Agenten und für Anpassungsumgebungen

Sicherheit und Tests

  • Für alle Modelle gilt ein strenges Sicherheits-Training und -Evaluierung
  • Entsprechend dem Readiness Framework von OpenAI wurde die Resistenz gegenüber böswilligem Fine-Tuning separat geprüft
  • In Zusammenarbeit mit externen Sicherheitsexperten wurden für Open-Modelle Sicherheitsstandards definiert

Noch keine Kommentare.

Noch keine Kommentare.