31 Punkte von haebom 2025-08-06 | 8 Kommentare | Auf WhatsApp teilen

OpenAI hat überraschend die Modellreihe GPT-OSS (gpt-oss-120b / gpt-oss-20b) unter der Apache-2.0-Lizenz veröffentlicht. Es handelt sich um das erste Modell mit offenen Gewichten seit GPT-2 vor sechs Jahren und es hat das Potenzial, die Marktverhältnisse sowohl bei Leistung als auch bei Effizienz zu verändern.

🧠 Zentrale Merkmale

  • 20B-Modell: Mixture-of-Experts-(MoE)-Architektur
     • 4 von 128 Experten werden aktiviert → geringere Inferenzkosten bei gleichbleibender Leistung
     • FlashAttention, Unterstützung für 128k Token, inklusive YaRN
  • 20B-Modell: Lauffähig selbst in einer 16-GB-GPU-Umgebung (einschließlich Apple Silicon)

📊 Wichtige Benchmark-Ergebnisse (basierend auf GPT-OSS-120B)

  • MMLU: 90,0 % (ähnlich wie o4-mini)
  • AIME Mathematik: 97,9 % (Spitzenniveau bei Mathematik + Tools)
  • Codeforces Elo: 2622 (auch beim Coding in der Spitzengruppe)
  • HealthBench: bessere Leistung als GPT-4o
  • MMMLU (14 Sprachen): 81,3 % → auch bei mehrsprachigem Reasoning sehr stark

💡 Praxistauglichkeit & Ökosystem

  • Das 120B-Modell kann auf einer einzelnen H100-80GB-GPU ausgeführt werden
  • Das 20B-Modell läuft in Echtzeit selbst in einer 16-GB-Umgebung
  • Sofort kompatibel mit HuggingFace, vLLM, Ollama usw.

🔐 Sicherheit & Verantwortung

  • Stärkere Konsistenz des Reasoning durch RL
  • Einführung von Deliberative Alignment
  • Erzeugt selbst bei absichtlichem Missbrauch keine Hochrisiko-Ausgaben

Den Spottname „ClosedAI“ wird das Unternehmen wohl vorerst vermeiden können. Ich habe es kurz getestet, und auch Koreanisch beherrscht es sehr gut.

https://huggingface.co/openai/gpt-oss-120b

8 Kommentare

 
yeorinhieut 2025-08-06

Sogar das 120b-Modell hat bei simpleqa nur einen Wert von 0,168.

 
jinucho 2025-08-06

Ich wollte es mit vllm bereitstellen, aber da es auf Flash Attention3 basiert, wird nur Hopper unterstützt, schnief schnief.

 
yeorinhieut 2025-08-06

Ich also auch mit ollama …

 
jinucho 2025-08-06

Der A100 ist völlig veraltet...

 
xguru 2025-08-06

Die zugehörigen Hacker-News-Kommentare finden Sie im Beitrag OpenAI veröffentlicht ein groß angelegtes Open-Weight-Sprachmodell.
Dort finden Sie verschiedene Bewertungen der Leistung.

 
argo9 2025-08-06

Wenn ich wissen will, dass mein Computer langsam ist ... könnte ich ihn vielleicht testen, indem ich mit demselben Prompt direkt die Sekunden stoppe. ^^; Ich würde gern wenigstens eine einfache Google-Tabelle zum Protokollieren offen haben (einfach aus Spaß am reinen Aufzeichnen).

 
fanotify 2025-08-06

Durch MXFP4-Quantisierung soll es sich in Ollama sogar auf Systemen mit 16 GB Speicher (VRAM) ausführen lassen (gpt-oss:20b): https://ollama.com/blog/gpt-oss

 
fanotify 2025-08-06

Wer größere Modelle ausführen möchte, kann das jetzt veröffentlichte ollama turbo für 20 $ pro Monat nutzen: https://ollama.com/turbo