27 Punkte von GN⁺ 2025-08-11 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Mit der Veröffentlichung der Open-Weight-Modelle gpt-oss-20b/120b durch OpenAI ist erstmals seit GPT-2 im Jahr 2019 wieder ein großes öffentlich verfügbares OpenAI-LLM mit offenen Gewichten erschienen
  • Im Vergleich zu GPT-2 entwickeln die gpt-oss-Modelle die Architektur weiter, indem sie Dropout, Absolute Position Embedding und GELU durch effiziente moderne Verfahren wie RoPE, SwiGLU und RMSNorm ersetzen
  • Durch den Einsatz von Mixture-of-Experts (modulare Expertenstruktur), Sliding Window Attention und MXFP4-Quantisierung werden nicht nur Leistung und Effizienz verbessert, sondern auch Single-GPU-Ausführungsumgebungen deutlich aufgewertet
  • Im Vergleich mit Qwen3 zeigen sich verschiedene Unterschiede bei Architekturtiefe und -breite, Anzahl der Experten, Attention-Bias und Open-Source-Lizenz
  • gpt-oss-20b bietet sowohl eine auf aktuelle Hardware abgestimmte schlanke Auslegung als auch eine Funktion zur Anpassung des Reasoning-Efforts und sichert damit sowohl praktische Nutzbarkeit als auch Erweiterbarkeit für die Forschung

Überblick und wichtigste Innovationen

  • OpenAI hat gpt-oss-20b/120b erstmals seit GPT-2 im Jahr 2019 als Open Weights veröffentlicht
    • 20B kann auf einer üblichen Nutzer-GPU (bis zu 16 GB RAM) und 120B auf einer H100 mit 80 GB ausgeführt werden
    • Durch MXFP4-Optimierung ist die Ausführung auf einer einzelnen GPU möglich, was die Zugänglichkeit für Verbraucher erweitert

Wichtige Architekturänderungen von GPT-2 → gpt-oss

Entfernung von Dropout

  • GPT-2 enthielt Dropout, doch in Trainingsumgebungen mit sehr großen Datenmengen und nur einer Epoche wurde vielmehr eine Leistungsverschlechterung festgestellt
  • Auch neuere Forschungsergebnisse zeigen, dass der Verzicht auf Dropout bei Downstream-Aufgaben von LLMs bessere Leistung bringt

Einführung von RoPE (Rotary Position Embedding)

  • Anstelle der bisherigen absoluten Positions-Embeddings hat sich RoPE (Rotary Position Embedding) als Mainstream etabliert
  • RoPE rotiert die Winkel von Query-/Key-Vektoren abhängig von der Position und liefert dadurch flexiblere und besser generalisierbare Positionsinformationen

SwiGLU als Aktivierungsfunktion und Einführung von GLU

  • Durch die Einführung von GLU-Varianten wie GEGLU/SwiGLU wird mit weniger Parametern als bei einem klassischen 2-Layer-FFN eine bessere Repräsentationsfähigkeit erreicht
  • Swish ist rechnerisch zudem effizienter als GELU

Einsatz von Mixture-of-Experts (MoE)

  • Statt eines einzelnen FFN wird ein Netzwerk aus mehreren Experten (Experts) verwendet, wobei bei der Generierung jedes Tokens nur ein Teil der Experten aktiviert wird
  • So lässt sich die Zahl der Modellparameter stark erhöhen, während die Inferenz-Effizienz (Sparsity) erhalten bleibt, und die Trainingskapazität steigt

Einführung von Grouped Query Attention (GQA)

  • Gegenüber herkömmlicher Multi-Head Attention reduziert das Teilen von Key/Value Speicherbedarf und Rechenaufwand
  • Die Effizienz verbessert sich ohne Leistungsverlust und wird bei großen LLMs zunehmend zum Standard

Nutzung von Sliding Window Attention

  • In einigen Layern wird statt des gesamten Kontexts nur ein Sliding Window der letzten 128 Tokens für lokale Attention-Berechnungen verwendet, um den Speicherverbrauch zu minimieren
  • Das ermöglicht schnelle Inferenz ohne Leistungseinbußen und unterstützt große Kontexte

Einführung von RMSNorm

  • RMSNorm statt LayerNorm erhöht die Recheneffizienz
  • Anstelle der Mittelwert-/Varianzberechnung von LayerNorm wird RMS (Root Mean Square) verwendet, was die GPU-Belastung senkt

Vergleich von gpt-oss und Qwen3

Unterschiede bei Größe und Struktur

  • Qwen3 hat eine tiefere Struktur (48 Transformer-Blöcke), während gpt-oss breiter aufgebaut ist (größere Embedding-Dimension, mehr Heads)
  • Tiefere Modelle sind flexibler, aber schwerer zu trainieren; breitere Modelle sind bei der Inferenz-Parallelisierung im Vorteil (laut Gemma-2-Paper ist bei einem 9B-Modell die breitere Variante leicht im Vorteil)

Unterschiede in der MoE-Struktur

  • gpt-oss-20b: 32 große Experten, davon nur 4 aktiv
  • Qwen3: viele kleine Experten, davon 8 aktiv
  • Der aktuelle Trend geht dahin, dass eine Konfiguration mit mehr kleinen Experten effektiver ist, doch gpt-oss hält an einer Struktur mit wenigen großen Experten fest (bei 20B und 120B werden nur Experten- und Blockanzahl angepasst)

Attention-Bias und Sinks

  • gpt-oss verwendet in der Attention Bias-Einheiten (eine seit der GPT-2-Ära eher seltene Methode)
    • Neuere Forschung zeigt allerdings, dass dies bei key-proj nur geringe Wirkung hat
  • Ein Attention Sink ist das Konzept eines speziellen Tokens, auf das am Sequenzanfang stets attendiert wird; bei gpt-oss wird dies jedoch ohne Veränderung der Eingabetokens als gelernter Bias-Logit pro Head zusätzlich angewandt

Lizenz und Umfang der Veröffentlichung

  • Mit der Apache-2.0-Open-Source-Lizenz ist kommerzielle Nutzung und der Aufbau abgeleiteter Modelle frei möglich
  • Im engeren Sinn ist es jedoch kein vollständiges Open Source (Trainingscode und Datensätze sind nicht veröffentlicht), sondern ein Open-Weight-Modell

Weitere Details und praktischer Betrieb

Training/Optimierung

  • gpt-oss wurde mit 2.1M H100-hours an Compute-Ressourcen trainiert
  • Der Fokus liegt auf Englisch sowie STEM, Coding und allgemeinem Wissens-Text
  • Es kommen moderne Verfahren wie Vortraining + überwachte Feinabstimmung (Instruction) sowie RL-basierte Reasoning-Phasen zum Einsatz

Steuerung des Reasoning-Efforts

  • Über den System Prompt lässt sich der Reasoning-Effort (niedrig/mittel/hoch) festlegen, wodurch Antwortlänge und Genauigkeit automatisch angepasst werden
  • Einfache Aufgaben können schnell mit geringem Aufwand bearbeitet werden; bei komplexem Reasoning lässt sich der Wert erhöhen

Single-GPU-Unterstützung durch MXFP4-Quantisierung

  • Durch das MXFP4-Format kann selbst 20B mit 16 GB VRAM betrieben werden (aktuelle GPU erforderlich)
  • 120B ist bei einer H100 mit 80 GB Speicher auf einer einzelnen GPU realisierbar, ohne verteilte Verarbeitung und mit einfacherem Betrieb

Benchmarks und praktische Nutzbarkeit

  • gpt-oss ist im Training stark auf Reasoning ausgerichtet, zeigt bei manchen allgemeinen Wissensfragen jedoch eine Tendenz zu Halluzinationen
  • In puncto Nutzbarkeit gehört es zu den derzeit besten offenen Modellen; in Kombination mit Tool Integration dürfte die Praxistauglichkeit weiter steigen
  • Für den realen Einsatz ist eine Balance zwischen Genauigkeit und Reasoning wichtig; weitere Vergleiche mit anderen offenen Modellen bleiben notwendig

Vergleich mit GPT-5

  • gpt-oss-120b zeigt in Benchmarks eine Leistung nahe an OpenAIs kommerziellem Modell (GPT-5)
  • Ob es sich in realen Umgebungen ebenfalls durchsetzt, bleibt abzuwarten, doch unter den aktuellen LLMs mit offenen Gewichten ist es eine starke Alternative
  • Benchmarks allein können die Wettbewerbsfähigkeit in der Praxis nicht vollständig erklären, bieten aber große Chancen für künftige externe Vergleiche und Forschung

Zusammenfassung

  • Das Erscheinen der gpt-oss-Serie setzt einen neuen Maßstab im Bereich großer Open-Weight-LLMs; detailliert verglichen und analysiert wird, wie innovative Architekturen moderner LLMs tatsächlich implementiert und angewandt werden
  • Unterschiede und Trends gegenüber anderen aktuellen Modellen wie Qwen3 und GPT-5 werden sichtbar und liefern nützliche Einblicke für praktische Anwendungen und Forschung

Noch keine Kommentare.

Noch keine Kommentare.