- Mit der Veröffentlichung der Open-Weight-Modelle gpt-oss-20b/120b durch OpenAI ist erstmals seit GPT-2 im Jahr 2019 wieder ein großes öffentlich verfügbares OpenAI-LLM mit offenen Gewichten erschienen
- Im Vergleich zu GPT-2 entwickeln die gpt-oss-Modelle die Architektur weiter, indem sie Dropout, Absolute Position Embedding und GELU durch effiziente moderne Verfahren wie RoPE, SwiGLU und RMSNorm ersetzen
- Durch den Einsatz von Mixture-of-Experts (modulare Expertenstruktur), Sliding Window Attention und MXFP4-Quantisierung werden nicht nur Leistung und Effizienz verbessert, sondern auch Single-GPU-Ausführungsumgebungen deutlich aufgewertet
- Im Vergleich mit Qwen3 zeigen sich verschiedene Unterschiede bei Architekturtiefe und -breite, Anzahl der Experten, Attention-Bias und Open-Source-Lizenz
- gpt-oss-20b bietet sowohl eine auf aktuelle Hardware abgestimmte schlanke Auslegung als auch eine Funktion zur Anpassung des Reasoning-Efforts und sichert damit sowohl praktische Nutzbarkeit als auch Erweiterbarkeit für die Forschung
Überblick und wichtigste Innovationen
- OpenAI hat gpt-oss-20b/120b erstmals seit GPT-2 im Jahr 2019 als Open Weights veröffentlicht
- 20B kann auf einer üblichen Nutzer-GPU (bis zu 16 GB RAM) und 120B auf einer H100 mit 80 GB ausgeführt werden
- Durch MXFP4-Optimierung ist die Ausführung auf einer einzelnen GPU möglich, was die Zugänglichkeit für Verbraucher erweitert
Wichtige Architekturänderungen von GPT-2 → gpt-oss
Entfernung von Dropout
- GPT-2 enthielt Dropout, doch in Trainingsumgebungen mit sehr großen Datenmengen und nur einer Epoche wurde vielmehr eine Leistungsverschlechterung festgestellt
- Auch neuere Forschungsergebnisse zeigen, dass der Verzicht auf Dropout bei Downstream-Aufgaben von LLMs bessere Leistung bringt
Einführung von RoPE (Rotary Position Embedding)
- Anstelle der bisherigen absoluten Positions-Embeddings hat sich RoPE (Rotary Position Embedding) als Mainstream etabliert
- RoPE rotiert die Winkel von Query-/Key-Vektoren abhängig von der Position und liefert dadurch flexiblere und besser generalisierbare Positionsinformationen
SwiGLU als Aktivierungsfunktion und Einführung von GLU
- Durch die Einführung von GLU-Varianten wie GEGLU/SwiGLU wird mit weniger Parametern als bei einem klassischen 2-Layer-FFN eine bessere Repräsentationsfähigkeit erreicht
- Swish ist rechnerisch zudem effizienter als GELU
Einsatz von Mixture-of-Experts (MoE)
- Statt eines einzelnen FFN wird ein Netzwerk aus mehreren Experten (Experts) verwendet, wobei bei der Generierung jedes Tokens nur ein Teil der Experten aktiviert wird
- So lässt sich die Zahl der Modellparameter stark erhöhen, während die Inferenz-Effizienz (Sparsity) erhalten bleibt, und die Trainingskapazität steigt
Einführung von Grouped Query Attention (GQA)
- Gegenüber herkömmlicher Multi-Head Attention reduziert das Teilen von Key/Value Speicherbedarf und Rechenaufwand
- Die Effizienz verbessert sich ohne Leistungsverlust und wird bei großen LLMs zunehmend zum Standard
Nutzung von Sliding Window Attention
- In einigen Layern wird statt des gesamten Kontexts nur ein Sliding Window der letzten 128 Tokens für lokale Attention-Berechnungen verwendet, um den Speicherverbrauch zu minimieren
- Das ermöglicht schnelle Inferenz ohne Leistungseinbußen und unterstützt große Kontexte
Einführung von RMSNorm
- RMSNorm statt LayerNorm erhöht die Recheneffizienz
- Anstelle der Mittelwert-/Varianzberechnung von LayerNorm wird RMS (Root Mean Square) verwendet, was die GPU-Belastung senkt
Vergleich von gpt-oss und Qwen3
Unterschiede bei Größe und Struktur
- Qwen3 hat eine tiefere Struktur (48 Transformer-Blöcke), während gpt-oss breiter aufgebaut ist (größere Embedding-Dimension, mehr Heads)
- Tiefere Modelle sind flexibler, aber schwerer zu trainieren; breitere Modelle sind bei der Inferenz-Parallelisierung im Vorteil (laut Gemma-2-Paper ist bei einem 9B-Modell die breitere Variante leicht im Vorteil)
Unterschiede in der MoE-Struktur
- gpt-oss-20b: 32 große Experten, davon nur 4 aktiv
- Qwen3: viele kleine Experten, davon 8 aktiv
- Der aktuelle Trend geht dahin, dass eine Konfiguration mit mehr kleinen Experten effektiver ist, doch gpt-oss hält an einer Struktur mit wenigen großen Experten fest (bei 20B und 120B werden nur Experten- und Blockanzahl angepasst)
Attention-Bias und Sinks
- gpt-oss verwendet in der Attention Bias-Einheiten (eine seit der GPT-2-Ära eher seltene Methode)
- Neuere Forschung zeigt allerdings, dass dies bei
key-proj nur geringe Wirkung hat
- Ein Attention Sink ist das Konzept eines speziellen Tokens, auf das am Sequenzanfang stets attendiert wird; bei gpt-oss wird dies jedoch ohne Veränderung der Eingabetokens als gelernter Bias-Logit pro Head zusätzlich angewandt
Lizenz und Umfang der Veröffentlichung
- Mit der Apache-2.0-Open-Source-Lizenz ist kommerzielle Nutzung und der Aufbau abgeleiteter Modelle frei möglich
- Im engeren Sinn ist es jedoch kein vollständiges Open Source (Trainingscode und Datensätze sind nicht veröffentlicht), sondern ein Open-Weight-Modell
Weitere Details und praktischer Betrieb
Training/Optimierung
- gpt-oss wurde mit 2.1M H100-hours an Compute-Ressourcen trainiert
- Der Fokus liegt auf Englisch sowie STEM, Coding und allgemeinem Wissens-Text
- Es kommen moderne Verfahren wie Vortraining + überwachte Feinabstimmung (Instruction) sowie RL-basierte Reasoning-Phasen zum Einsatz
Steuerung des Reasoning-Efforts
- Über den System Prompt lässt sich der Reasoning-Effort (niedrig/mittel/hoch) festlegen, wodurch Antwortlänge und Genauigkeit automatisch angepasst werden
- Einfache Aufgaben können schnell mit geringem Aufwand bearbeitet werden; bei komplexem Reasoning lässt sich der Wert erhöhen
Single-GPU-Unterstützung durch MXFP4-Quantisierung
- Durch das MXFP4-Format kann selbst 20B mit 16 GB VRAM betrieben werden (aktuelle GPU erforderlich)
- 120B ist bei einer H100 mit 80 GB Speicher auf einer einzelnen GPU realisierbar, ohne verteilte Verarbeitung und mit einfacherem Betrieb
Benchmarks und praktische Nutzbarkeit
- gpt-oss ist im Training stark auf Reasoning ausgerichtet, zeigt bei manchen allgemeinen Wissensfragen jedoch eine Tendenz zu Halluzinationen
- In puncto Nutzbarkeit gehört es zu den derzeit besten offenen Modellen; in Kombination mit Tool Integration dürfte die Praxistauglichkeit weiter steigen
- Für den realen Einsatz ist eine Balance zwischen Genauigkeit und Reasoning wichtig; weitere Vergleiche mit anderen offenen Modellen bleiben notwendig
Vergleich mit GPT-5
- gpt-oss-120b zeigt in Benchmarks eine Leistung nahe an OpenAIs kommerziellem Modell (GPT-5)
- Ob es sich in realen Umgebungen ebenfalls durchsetzt, bleibt abzuwarten, doch unter den aktuellen LLMs mit offenen Gewichten ist es eine starke Alternative
- Benchmarks allein können die Wettbewerbsfähigkeit in der Praxis nicht vollständig erklären, bieten aber große Chancen für künftige externe Vergleiche und Forschung
Zusammenfassung
- Das Erscheinen der gpt-oss-Serie setzt einen neuen Maßstab im Bereich großer Open-Weight-LLMs; detailliert verglichen und analysiert wird, wie innovative Architekturen moderner LLMs tatsächlich implementiert und angewandt werden
- Unterschiede und Trends gegenüber anderen aktuellen Modellen wie Qwen3 und GPT-5 werden sichtbar und liefern nützliche Einblicke für praktische Anwendungen und Forschung
Noch keine Kommentare.