GPT-OSS vs. Qwen3 und ein detaillierter Vergleich der LLM-Architekturentwicklung seit GPT-2

(magazine.sebastianraschka.com)

27 Punkte von GN⁺ 2025-08-11 | Noch keine Kommentare. | Auf WhatsApp teilen

Mit der Veröffentlichung der Open-Weight-Modelle gpt-oss-20b/120b durch OpenAI ist erstmals seit GPT-2 im Jahr 2019 wieder ein großes öffentlich verfügbares OpenAI-LLM mit offenen Gewichten erschienen
Im Vergleich zu GPT-2 entwickeln die gpt-oss-Modelle die Architektur weiter, indem sie Dropout, Absolute Position Embedding und GELU durch effiziente moderne Verfahren wie RoPE, SwiGLU und RMSNorm ersetzen
Durch den Einsatz von Mixture-of-Experts (modulare Expertenstruktur), Sliding Window Attention und MXFP4-Quantisierung werden nicht nur Leistung und Effizienz verbessert, sondern auch Single-GPU-Ausführungsumgebungen deutlich aufgewertet
Im Vergleich mit Qwen3 zeigen sich verschiedene Unterschiede bei Architekturtiefe und -breite, Anzahl der Experten, Attention-Bias und Open-Source-Lizenz
gpt-oss-20b bietet sowohl eine auf aktuelle Hardware abgestimmte schlanke Auslegung als auch eine Funktion zur Anpassung des Reasoning-Efforts und sichert damit sowohl praktische Nutzbarkeit als auch Erweiterbarkeit für die Forschung

Überblick und wichtigste Innovationen

OpenAI hat gpt-oss-20b/120b erstmals seit GPT-2 im Jahr 2019 als Open Weights veröffentlicht
- 20B kann auf einer üblichen Nutzer-GPU (bis zu 16 GB RAM) und 120B auf einer H100 mit 80 GB ausgeführt werden
- Durch MXFP4-Optimierung ist die Ausführung auf einer einzelnen GPU möglich, was die Zugänglichkeit für Verbraucher erweitert

Wichtige Architekturänderungen von GPT-2 → gpt-oss

Entfernung von Dropout

GPT-2 enthielt Dropout, doch in Trainingsumgebungen mit sehr großen Datenmengen und nur einer Epoche wurde vielmehr eine Leistungsverschlechterung festgestellt
Auch neuere Forschungsergebnisse zeigen, dass der Verzicht auf Dropout bei Downstream-Aufgaben von LLMs bessere Leistung bringt

Einführung von RoPE (Rotary Position Embedding)

Anstelle der bisherigen absoluten Positions-Embeddings hat sich RoPE (Rotary Position Embedding) als Mainstream etabliert
RoPE rotiert die Winkel von Query-/Key-Vektoren abhängig von der Position und liefert dadurch flexiblere und besser generalisierbare Positionsinformationen

SwiGLU als Aktivierungsfunktion und Einführung von GLU

Durch die Einführung von GLU-Varianten wie GEGLU/SwiGLU wird mit weniger Parametern als bei einem klassischen 2-Layer-FFN eine bessere Repräsentationsfähigkeit erreicht
Swish ist rechnerisch zudem effizienter als GELU

Einsatz von Mixture-of-Experts (MoE)

Statt eines einzelnen FFN wird ein Netzwerk aus mehreren Experten (Experts) verwendet, wobei bei der Generierung jedes Tokens nur ein Teil der Experten aktiviert wird
So lässt sich die Zahl der Modellparameter stark erhöhen, während die Inferenz-Effizienz (Sparsity) erhalten bleibt, und die Trainingskapazität steigt

Einführung von Grouped Query Attention (GQA)

Gegenüber herkömmlicher Multi-Head Attention reduziert das Teilen von Key/Value Speicherbedarf und Rechenaufwand
Die Effizienz verbessert sich ohne Leistungsverlust und wird bei großen LLMs zunehmend zum Standard

Nutzung von Sliding Window Attention

In einigen Layern wird statt des gesamten Kontexts nur ein Sliding Window der letzten 128 Tokens für lokale Attention-Berechnungen verwendet, um den Speicherverbrauch zu minimieren
Das ermöglicht schnelle Inferenz ohne Leistungseinbußen und unterstützt große Kontexte

Einführung von RMSNorm

RMSNorm statt LayerNorm erhöht die Recheneffizienz
Anstelle der Mittelwert-/Varianzberechnung von LayerNorm wird RMS (Root Mean Square) verwendet, was die GPU-Belastung senkt

Vergleich von gpt-oss und Qwen3

Unterschiede bei Größe und Struktur

Qwen3 hat eine tiefere Struktur (48 Transformer-Blöcke), während gpt-oss breiter aufgebaut ist (größere Embedding-Dimension, mehr Heads)
Tiefere Modelle sind flexibler, aber schwerer zu trainieren; breitere Modelle sind bei der Inferenz-Parallelisierung im Vorteil (laut Gemma-2-Paper ist bei einem 9B-Modell die breitere Variante leicht im Vorteil)

Unterschiede in der MoE-Struktur

gpt-oss-20b: 32 große Experten, davon nur 4 aktiv
Qwen3: viele kleine Experten, davon 8 aktiv
Der aktuelle Trend geht dahin, dass eine Konfiguration mit mehr kleinen Experten effektiver ist, doch gpt-oss hält an einer Struktur mit wenigen großen Experten fest (bei 20B und 120B werden nur Experten- und Blockanzahl angepasst)

Attention-Bias und Sinks

gpt-oss verwendet in der Attention Bias-Einheiten (eine seit der GPT-2-Ära eher seltene Methode)
- Neuere Forschung zeigt allerdings, dass dies bei key-proj nur geringe Wirkung hat
Ein Attention Sink ist das Konzept eines speziellen Tokens, auf das am Sequenzanfang stets attendiert wird; bei gpt-oss wird dies jedoch ohne Veränderung der Eingabetokens als gelernter Bias-Logit pro Head zusätzlich angewandt

Lizenz und Umfang der Veröffentlichung

Mit der Apache-2.0-Open-Source-Lizenz ist kommerzielle Nutzung und der Aufbau abgeleiteter Modelle frei möglich
Im engeren Sinn ist es jedoch kein vollständiges Open Source (Trainingscode und Datensätze sind nicht veröffentlicht), sondern ein Open-Weight-Modell

Weitere Details und praktischer Betrieb

Training/Optimierung

gpt-oss wurde mit 2.1M H100-hours an Compute-Ressourcen trainiert
Der Fokus liegt auf Englisch sowie STEM, Coding und allgemeinem Wissens-Text
Es kommen moderne Verfahren wie Vortraining + überwachte Feinabstimmung (Instruction) sowie RL-basierte Reasoning-Phasen zum Einsatz

Steuerung des Reasoning-Efforts

Über den System Prompt lässt sich der Reasoning-Effort (niedrig/mittel/hoch) festlegen, wodurch Antwortlänge und Genauigkeit automatisch angepasst werden
Einfache Aufgaben können schnell mit geringem Aufwand bearbeitet werden; bei komplexem Reasoning lässt sich der Wert erhöhen

Single-GPU-Unterstützung durch MXFP4-Quantisierung

Durch das MXFP4-Format kann selbst 20B mit 16 GB VRAM betrieben werden (aktuelle GPU erforderlich)
120B ist bei einer H100 mit 80 GB Speicher auf einer einzelnen GPU realisierbar, ohne verteilte Verarbeitung und mit einfacherem Betrieb

Benchmarks und praktische Nutzbarkeit

gpt-oss ist im Training stark auf Reasoning ausgerichtet, zeigt bei manchen allgemeinen Wissensfragen jedoch eine Tendenz zu Halluzinationen
In puncto Nutzbarkeit gehört es zu den derzeit besten offenen Modellen; in Kombination mit Tool Integration dürfte die Praxistauglichkeit weiter steigen
Für den realen Einsatz ist eine Balance zwischen Genauigkeit und Reasoning wichtig; weitere Vergleiche mit anderen offenen Modellen bleiben notwendig

Vergleich mit GPT-5

gpt-oss-120b zeigt in Benchmarks eine Leistung nahe an OpenAIs kommerziellem Modell (GPT-5)
Ob es sich in realen Umgebungen ebenfalls durchsetzt, bleibt abzuwarten, doch unter den aktuellen LLMs mit offenen Gewichten ist es eine starke Alternative
Benchmarks allein können die Wettbewerbsfähigkeit in der Praxis nicht vollständig erklären, bieten aber große Chancen für künftige externe Vergleiche und Forschung

Zusammenfassung

Das Erscheinen der gpt-oss-Serie setzt einen neuen Maßstab im Bereich großer Open-Weight-LLMs; detailliert verglichen und analysiert wird, wie innovative Architekturen moderner LLMs tatsächlich implementiert und angewandt werden
Unterschiede und Trends gegenüber anderen aktuellen Modellen wie Qwen3 und GPT-5 werden sichtbar und liefern nützliche Einblicke für praktische Anwendungen und Forschung

GPT-OSS vs. Qwen3 und ein detaillierter Vergleich der LLM-Architekturentwicklung seit GPT-2

Überblick und wichtigste Innovationen

Wichtige Architekturänderungen von GPT-2 → gpt-oss

Entfernung von Dropout

Einführung von RoPE (Rotary Position Embedding)

SwiGLU als Aktivierungsfunktion und Einführung von GLU

Einsatz von Mixture-of-Experts (MoE)

Einführung von Grouped Query Attention (GQA)

Nutzung von Sliding Window Attention

Einführung von RMSNorm

Vergleich von gpt-oss und Qwen3

Unterschiede bei Größe und Struktur

Unterschiede in der MoE-Struktur

Attention-Bias und Sinks

Lizenz und Umfang der Veröffentlichung

Weitere Details und praktischer Betrieb

Training/Optimierung

Steuerung des Reasoning-Efforts

Single-GPU-Unterstützung durch MXFP4-Quantisierung

Benchmarks und praktische Nutzbarkeit

Vergleich mit GPT-5

Zusammenfassung

Verwandte Beiträge

Noch keine Kommentare.