27 Punkte von GN⁺ 2025-08-11 | 1 Kommentare | Auf WhatsApp teilen
  • Mit der Veröffentlichung der Open-Weight-Modelle gpt-oss-20b/120b durch OpenAI ist erstmals seit GPT-2 im Jahr 2019 wieder ein großes öffentlich verfügbares OpenAI-LLM mit offenen Gewichten erschienen
  • Im Vergleich zu GPT-2 entwickeln die gpt-oss-Modelle die Architektur weiter, indem sie Dropout, Absolute Position Embedding und GELU durch effiziente moderne Verfahren wie RoPE, SwiGLU und RMSNorm ersetzen
  • Durch den Einsatz von Mixture-of-Experts (modulare Expertenstruktur), Sliding Window Attention und MXFP4-Quantisierung werden nicht nur Leistung und Effizienz verbessert, sondern auch Single-GPU-Ausführungsumgebungen deutlich aufgewertet
  • Im Vergleich mit Qwen3 zeigen sich verschiedene Unterschiede bei Architekturtiefe und -breite, Anzahl der Experten, Attention-Bias und Open-Source-Lizenz
  • gpt-oss-20b bietet sowohl eine auf aktuelle Hardware abgestimmte schlanke Auslegung als auch eine Funktion zur Anpassung des Reasoning-Efforts und sichert damit sowohl praktische Nutzbarkeit als auch Erweiterbarkeit für die Forschung

Überblick und wichtigste Innovationen

  • OpenAI hat gpt-oss-20b/120b erstmals seit GPT-2 im Jahr 2019 als Open Weights veröffentlicht
    • 20B kann auf einer üblichen Nutzer-GPU (bis zu 16 GB RAM) und 120B auf einer H100 mit 80 GB ausgeführt werden
    • Durch MXFP4-Optimierung ist die Ausführung auf einer einzelnen GPU möglich, was die Zugänglichkeit für Verbraucher erweitert

Wichtige Architekturänderungen von GPT-2 → gpt-oss

Entfernung von Dropout

  • GPT-2 enthielt Dropout, doch in Trainingsumgebungen mit sehr großen Datenmengen und nur einer Epoche wurde vielmehr eine Leistungsverschlechterung festgestellt
  • Auch neuere Forschungsergebnisse zeigen, dass der Verzicht auf Dropout bei Downstream-Aufgaben von LLMs bessere Leistung bringt

Einführung von RoPE (Rotary Position Embedding)

  • Anstelle der bisherigen absoluten Positions-Embeddings hat sich RoPE (Rotary Position Embedding) als Mainstream etabliert
  • RoPE rotiert die Winkel von Query-/Key-Vektoren abhängig von der Position und liefert dadurch flexiblere und besser generalisierbare Positionsinformationen

SwiGLU als Aktivierungsfunktion und Einführung von GLU

  • Durch die Einführung von GLU-Varianten wie GEGLU/SwiGLU wird mit weniger Parametern als bei einem klassischen 2-Layer-FFN eine bessere Repräsentationsfähigkeit erreicht
  • Swish ist rechnerisch zudem effizienter als GELU

Einsatz von Mixture-of-Experts (MoE)

  • Statt eines einzelnen FFN wird ein Netzwerk aus mehreren Experten (Experts) verwendet, wobei bei der Generierung jedes Tokens nur ein Teil der Experten aktiviert wird
  • So lässt sich die Zahl der Modellparameter stark erhöhen, während die Inferenz-Effizienz (Sparsity) erhalten bleibt, und die Trainingskapazität steigt

Einführung von Grouped Query Attention (GQA)

  • Gegenüber herkömmlicher Multi-Head Attention reduziert das Teilen von Key/Value Speicherbedarf und Rechenaufwand
  • Die Effizienz verbessert sich ohne Leistungsverlust und wird bei großen LLMs zunehmend zum Standard

Nutzung von Sliding Window Attention

  • In einigen Layern wird statt des gesamten Kontexts nur ein Sliding Window der letzten 128 Tokens für lokale Attention-Berechnungen verwendet, um den Speicherverbrauch zu minimieren
  • Das ermöglicht schnelle Inferenz ohne Leistungseinbußen und unterstützt große Kontexte

Einführung von RMSNorm

  • RMSNorm statt LayerNorm erhöht die Recheneffizienz
  • Anstelle der Mittelwert-/Varianzberechnung von LayerNorm wird RMS (Root Mean Square) verwendet, was die GPU-Belastung senkt

Vergleich von gpt-oss und Qwen3

Unterschiede bei Größe und Struktur

  • Qwen3 hat eine tiefere Struktur (48 Transformer-Blöcke), während gpt-oss breiter aufgebaut ist (größere Embedding-Dimension, mehr Heads)
  • Tiefere Modelle sind flexibler, aber schwerer zu trainieren; breitere Modelle sind bei der Inferenz-Parallelisierung im Vorteil (laut Gemma-2-Paper ist bei einem 9B-Modell die breitere Variante leicht im Vorteil)

Unterschiede in der MoE-Struktur

  • gpt-oss-20b: 32 große Experten, davon nur 4 aktiv
  • Qwen3: viele kleine Experten, davon 8 aktiv
  • Der aktuelle Trend geht dahin, dass eine Konfiguration mit mehr kleinen Experten effektiver ist, doch gpt-oss hält an einer Struktur mit wenigen großen Experten fest (bei 20B und 120B werden nur Experten- und Blockanzahl angepasst)

Attention-Bias und Sinks

  • gpt-oss verwendet in der Attention Bias-Einheiten (eine seit der GPT-2-Ära eher seltene Methode)
    • Neuere Forschung zeigt allerdings, dass dies bei key-proj nur geringe Wirkung hat
  • Ein Attention Sink ist das Konzept eines speziellen Tokens, auf das am Sequenzanfang stets attendiert wird; bei gpt-oss wird dies jedoch ohne Veränderung der Eingabetokens als gelernter Bias-Logit pro Head zusätzlich angewandt

Lizenz und Umfang der Veröffentlichung

  • Mit der Apache-2.0-Open-Source-Lizenz ist kommerzielle Nutzung und der Aufbau abgeleiteter Modelle frei möglich
  • Im engeren Sinn ist es jedoch kein vollständiges Open Source (Trainingscode und Datensätze sind nicht veröffentlicht), sondern ein Open-Weight-Modell

Weitere Details und praktischer Betrieb

Training/Optimierung

  • gpt-oss wurde mit 2.1M H100-hours an Compute-Ressourcen trainiert
  • Der Fokus liegt auf Englisch sowie STEM, Coding und allgemeinem Wissens-Text
  • Es kommen moderne Verfahren wie Vortraining + überwachte Feinabstimmung (Instruction) sowie RL-basierte Reasoning-Phasen zum Einsatz

Steuerung des Reasoning-Efforts

  • Über den System Prompt lässt sich der Reasoning-Effort (niedrig/mittel/hoch) festlegen, wodurch Antwortlänge und Genauigkeit automatisch angepasst werden
  • Einfache Aufgaben können schnell mit geringem Aufwand bearbeitet werden; bei komplexem Reasoning lässt sich der Wert erhöhen

Single-GPU-Unterstützung durch MXFP4-Quantisierung

  • Durch das MXFP4-Format kann selbst 20B mit 16 GB VRAM betrieben werden (aktuelle GPU erforderlich)
  • 120B ist bei einer H100 mit 80 GB Speicher auf einer einzelnen GPU realisierbar, ohne verteilte Verarbeitung und mit einfacherem Betrieb

Benchmarks und praktische Nutzbarkeit

  • gpt-oss ist im Training stark auf Reasoning ausgerichtet, zeigt bei manchen allgemeinen Wissensfragen jedoch eine Tendenz zu Halluzinationen
  • In puncto Nutzbarkeit gehört es zu den derzeit besten offenen Modellen; in Kombination mit Tool Integration dürfte die Praxistauglichkeit weiter steigen
  • Für den realen Einsatz ist eine Balance zwischen Genauigkeit und Reasoning wichtig; weitere Vergleiche mit anderen offenen Modellen bleiben notwendig

Vergleich mit GPT-5

  • gpt-oss-120b zeigt in Benchmarks eine Leistung nahe an OpenAIs kommerziellem Modell (GPT-5)
  • Ob es sich in realen Umgebungen ebenfalls durchsetzt, bleibt abzuwarten, doch unter den aktuellen LLMs mit offenen Gewichten ist es eine starke Alternative
  • Benchmarks allein können die Wettbewerbsfähigkeit in der Praxis nicht vollständig erklären, bieten aber große Chancen für künftige externe Vergleiche und Forschung

Zusammenfassung

  • Das Erscheinen der gpt-oss-Serie setzt einen neuen Maßstab im Bereich großer Open-Weight-LLMs; detailliert verglichen und analysiert wird, wie innovative Architekturen moderner LLMs tatsächlich implementiert und angewandt werden
  • Unterschiede und Trends gegenüber anderen aktuellen Modellen wie Qwen3 und GPT-5 werden sichtbar und liefern nützliche Einblicke für praktische Anwendungen und Forschung

1 Kommentare

 
GN⁺ 2025-08-11
Hacker-News-Kommentare
  • Es hat sich bestätigt, dass Qwen3 in lokalen Tests deutlich besser ist. Die Version mit 32B Parametern hält sich fast perfekt an Prompts und erzeugt natürliche Ergebnisse. Dagegen zeigt simplebench gpt-oss (120B) bei Logikrätseln eine schwache Leistung. Ich denke, dieser Unterschied kommt von der Trainingsmethode, den Modelldimensionen sowie von wenigen großen Experten vs. vielen kleinen Experten

    • Qwen3 32B ist ein dichtes Modell, das immer alle Parameter verwendet. GPT OSS 20B ist ein sparsames MoE-Modell (Expert of Experts), das nur einen Teil nutzt und pro Durchlauf nur etwa 3.6B aktiviert. Dadurch ist es schneller als ein dichtes 20B-Modell und intelligenter als ein 3.6B-Modell. Für einen fairen Vergleich sollte man es mit einem dichten 8B-Modell vergleichen, und auch Modelle wie Qwen Coder 30B A3B sind ein guter Vergleichspunkt
    • Meiner Meinung nach kommen solche Unterschiede viel stärker von den Daten und der Training-Pipeline als von der Modellarchitektur. Es heißt, dass gpt-oss nur Phi-artige synthetische Datensätze verwendet hat und sich hauptsächlich auf Benchmark-Spiele konzentriert hat; die Belege dafür wirken ziemlich überzeugend
    • Die erwartete Leistungsformel für MoE ist sqrt(aktive Heads * Gesamtzahl der Parameter). Zum Beispiel ergibt sqrt(120*5) ~= 24, also liefert GPT-OSS 120B in Wirklichkeit eher Leistung auf dem Niveau von 24B bei Geschwindigkeiten auf dem Niveau deutlich kleinerer Modelle
    • qwen3 ist eher langsam. Ich habe es selbst benutzt; es funktioniert, aber es ist langsam und fühlt sich in den Fähigkeiten etwas begrenzt an
  • Die Blogbeiträge von Sebastian Raschka sind eine wahre Fundgrube. Ich nutze get-oss- und qwen3-Modelle lokal mit Ollama und LM Studio und verwende für große Modelle kommerzielle APIs. get-oss liefert gute Ergebnisse, wenn man viel Kontextinformation in den Prompt gibt, und qwen3 ist einfach hervorragend. Bis vor drei Jahren habe ich neuronale Netze, GANs, RNNs, LSTMs usw. so gut verstanden, dass ich Machine Learning tatsächlich selbst implementieren konnte, aber heutige LLMs sind leider nicht mehr so leicht direkt selbst zu entwickeln. Ich schaue mir auch Sebastian Raschkas Buch an, werde es aber wahrscheinlich nicht ganz zu Ende lesen

    • In einem Feld, das sich unfassbar schnell verändert, hilft es mir enorm, dass Sebastian Raschka aktuelle Informationen immer knapp und verständlich zusammenfasst
  • Ich habe auf einer lokalen 3090-GPU das Modell qwen3 coder instruct 30b-a3b exl3 q6 laufen lassen und damit ausprobiert, eine Beispielseite zu bauen, den Server zu starten, einen bereits laufenden Server zu erkennen, ihn selbst zu beenden (inklusive Berechtigungsanfrage), danach neu zu starten, die IP automatisch zu finden und die Seite im Browser zu öffnen. Das ist inzwischen nicht mehr nur eine einfache Demo, sondern Hilfe auf einem Niveau, das selbst für Juniors oder Praktikanten praktisch nützlich ist

  • Nach meiner Erfahrung ist qwen3-coder haushoch überlegen. Ich habe auch gpt-oss:20b installiert, aber wenn ich eine Code-Zusammenfassung anfordere, liefert qwen3 in wenigen Sekunden ein Ergebnis, während gpt-oss über fünf Minuten lang gar nichts macht, sodass ich es abbreche. Deshalb nutze ich einfach nur qwen3. Wenn ich nicht die gewünschte Antwort bekomme, nutze ich eine Suchmaschine oder Perplexity. Ich verwende eine 10GB 3080, Ryzen 3600x und 32GB RAM. Qwen3-coder ist das Beste, was ich bisher benutzt habe

    • Qwen3 coder 480B ist so gut, dass es mit Sonnet 4 mithalten kann. Dadurch hatte ich zum ersten Mal wirklich das Gefühl, dass chinesische Modelle US-basierte Modelle bald überholen könnten, besonders im Coding-Bereich
    • Es könnte auch daran liegen, dass gpt-oss 20B nicht in 10GB passt
    • Ich nutze gpt-oss-20b auch gelegentlich ganz einfach, und bei kurzen Prompts (Einzelsätzen) verfällt es manchmal in Endlosschleifen. Als ich in llama.cpp den Wert für die Wiederholungsstrafe niedriger gesetzt habe, trat das Problem nicht mehr auf (ich nutze es hauptsächlich ein paarmal täglich für Diff-Analysen). Es kann aber auch sein, dass ich einfach Glück hatte
    • Mich würde interessieren, ob du es agentisch verwendest, also in einer Automatisierung mit mehreren Frage-und-Antwort-Runden, oder nur als einzelnes Copy-Paste-Eingabe/Ausgabe-Muster wie „Schreib diesen Code“. Ich würde gern wissen, wie nah aktuelle offene Modelle im agentischen Coding schon an kommerzielle Modelle herankommen
  • Interessant ist, dass sich Open-Weight-LLMs aktuell architektonisch so stark ähneln und Innovation fast nur noch bei Daten oder RL stattfindet. In großen ML-Organisationen früher galt Architektur-Tuning als das Wichtigste, aber die Realität scheint anders zu sein

    • Ich glaube, Hyperparameter-Tuning ist in der Größenordnung von LLMs selbst nicht machbar. Die Kosten sind zu hoch, daher testet man mehrere Architekturen nur grob, wählt eine aus und optimiert sie dann über Daten und RL
    • Guter Punkt. Dank LLMs kann inzwischen jeder mit genug Ressourcen mitmachen. Die Architektur ist ziemlich robust gegenüber Anpassungen, und wenn man genug Compute und Daten hineinsteckt, kann man auch dann noch ein ordentliches Modell bauen, wenn man Scaling Laws bricht, wie Llama 3 das früher gezeigt hat
  • Ich nutze das Qwen3-4B-Modell lokal wirklich sehr gut. Online-Modelle verwende ich fast gar nicht mehr, und auch die Websuche ist viel gezielter. Ich vertraue ihm nicht vollständig, aber insgesamt ist es ziemlich gut. Ich bin überzeugt, dass solche Open-Source-Modelle die Landschaft der lokalen Wissensautomatisierung verändern werden

    • Mich würde interessieren, ob Qwen selbst bessere Suchparameter vorschlägt oder ob Qwen tatsächlich auch die Websuche selbst ausführt
  • Das leistungsstärkste Modell in der LM Arena, das nicht rein Transformer-basiert ist, ist Jamba (eine Hybridstruktur aus Transformern und State-Space-Modellen, Rang 96). Tencent hunyuan-turbos ist ebenfalls ein Hybrid und liegt auf Rang 22. Siehe arXiv-Paper

  • LLMs werden normalerweise nur genau einmal über einen extrem großen Datensatz trainiert (ein einzelner Epoch). Das ist eine andere Umgebung als bei Dropout-Methoden, die von wiederholtem Training über viele Durchläufe hinweg ausgehen (Hunderte von Epochen)

    • Das ist gut bekannt. Man kann dazu Tabelle 2.2 im GPT-3-Paper ansehen
  • Ich frage mich, wie stark sich öffentlich veröffentlichte Modelle aus großen Forschungslaboren mit zusätzlichem Training noch verbessern könnten. Wenn GPT-OSS zum Beispiel 2.1 Millionen Stunden trainiert wurde: Wie viel besser würde es werden, wenn man das verdoppelt?

    • GPT-4.5 war möglicherweise eigentlich als größeres GPT-5 geplant und könnte mit mehr Daten trainiert worden sein. Es war aber wohl zu teuer für eine breite kommerzielle Einführung, und schade ist auch, dass wir keine RL-Variante davon zu sehen bekamen
    • Es zeigt sich bereits, dass sich die fortschrittlichen RL-basierten Trainingstechniken aus GPT-5 ebenfalls nicht unbegrenzt skalieren lassen
  • Wenn ich die Website aufrufe, bekomme ich die Fehlermeldung „Ihre Verbindung ist nicht sicher“. Dort steht: „Die Website magazine.sebastianraschka.com verwendet HSTS und kann derzeit nicht besucht werden.“ Neueste Chrome-Version unter Ubuntu