OpenAI hat überraschend die Modellreihe GPT-OSS (gpt-oss-120b / gpt-oss-20b) unter der Apache-2.0-Lizenz veröffentlicht. Es handelt sich um das erste Modell mit offenen Gewichten seit GPT-2 vor sechs Jahren und es hat das Potenzial, die Marktverhältnisse sowohl bei Leistung als auch bei Effizienz zu verändern.
🧠 Zentrale Merkmale
- 20B-Modell: Mixture-of-Experts-(MoE)-Architektur
• 4 von 128 Experten werden aktiviert → geringere Inferenzkosten bei gleichbleibender Leistung
• FlashAttention, Unterstützung für 128k Token, inklusive YaRN - 20B-Modell: Lauffähig selbst in einer 16-GB-GPU-Umgebung (einschließlich Apple Silicon)
📊 Wichtige Benchmark-Ergebnisse (basierend auf GPT-OSS-120B)
- MMLU: 90,0 % (ähnlich wie o4-mini)
- AIME Mathematik: 97,9 % (Spitzenniveau bei Mathematik + Tools)
- Codeforces Elo: 2622 (auch beim Coding in der Spitzengruppe)
- HealthBench: bessere Leistung als GPT-4o
- MMMLU (14 Sprachen): 81,3 % → auch bei mehrsprachigem Reasoning sehr stark
💡 Praxistauglichkeit & Ökosystem
- Das 120B-Modell kann auf einer einzelnen H100-80GB-GPU ausgeführt werden
- Das 20B-Modell läuft in Echtzeit selbst in einer 16-GB-Umgebung
- Sofort kompatibel mit HuggingFace, vLLM, Ollama usw.
🔐 Sicherheit & Verantwortung
- Stärkere Konsistenz des Reasoning durch RL
- Einführung von Deliberative Alignment
- Erzeugt selbst bei absichtlichem Missbrauch keine Hochrisiko-Ausgaben
Den Spottname „ClosedAI“ wird das Unternehmen wohl vorerst vermeiden können. Ich habe es kurz getestet, und auch Koreanisch beherrscht es sehr gut.
8 Kommentare
Sogar das 120b-Modell hat bei simpleqa nur einen Wert von 0,168.
Ich wollte es mit vllm bereitstellen, aber da es auf Flash Attention3 basiert, wird nur Hopper unterstützt, schnief schnief.
Ich also auch mit ollama …
Der A100 ist völlig veraltet...
Die zugehörigen Hacker-News-Kommentare finden Sie im Beitrag OpenAI veröffentlicht ein groß angelegtes Open-Weight-Sprachmodell.
Dort finden Sie verschiedene Bewertungen der Leistung.
Wenn ich wissen will, dass mein Computer langsam ist ... könnte ich ihn vielleicht testen, indem ich mit demselben Prompt direkt die Sekunden stoppe. ^^; Ich würde gern wenigstens eine einfache Google-Tabelle zum Protokollieren offen haben (einfach aus Spaß am reinen Aufzeichnen).
Durch MXFP4-Quantisierung soll es sich in Ollama sogar auf Systemen mit 16 GB Speicher (VRAM) ausführen lassen (
gpt-oss:20b): https://ollama.com/blog/gpt-ossWer größere Modelle ausführen möchte, kann das jetzt veröffentlichte
ollama turbofür 20 $ pro Monat nutzen: https://ollama.com/turbo