LLM-Architektur-Galerie

(sebastianraschka.com)

50 Punkte von GN⁺ 2026-03-16 | 2 Kommentare | Auf WhatsApp teilen

Eine Online-Galerie, die Strukturschemata und zentrale Spezifikationen der neuesten Large Language Models (LLMs) auf einen Blick zusammenfasst, einschließlich wichtiger Modelle, die zwischen 2024 und 2026 veröffentlicht wurden
Jedes Modell ist in Tabellenform aufbereitet und fasst Parametergröße, Decoder-Typ, Attention-Verfahren und zentrale Designpunkte zusammen
Das Material ist den Vergleichsartikeln von Sebastian Raschka entnommen: „The Big LLM Architecture Comparison“ und „A Dream of Spring for Open-Weight LLMs“
Nutzer können auf den Modellnamen klicken, um zur jeweiligen Detailbeschreibung zu springen, oder auf das Bild klicken, um das hochauflösende Architekturschema (182 Megapixel) zu vergrößern
Als Architektur-Datenbank zum Nachschlagen für Open-Weight-LLM-Forscher und -Entwickler ermöglicht sie, die Entwicklung aktueller MoE-, Hybrid- und Dense-Architekturen an einem Ort nachzuvollziehen

Überblick

Diese Seite ist eine Galerie mit LLM-Architekturschemata und Fact Sheets, in der ausschließlich die Diagramme aus Raschkas zwei großen Vergleichsartikeln zusammengestellt wurden
- Originalquellen: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
Jeder Modelleintrag besteht aus Modellname, Parameteranzahl, Veröffentlichungsdatum, Decoder-Typ, Attention-Verfahren, zentralen Designmerkmalen und Links zu verwandten Konzepten
Falsche Informationen oder fehlerhafte Links können über den GitHub-Issue-Tracker gemeldet werden
Aufgrund hoher Nachfrage wird über Zazzle auch eine Poster-Version (56 MB PNG) in der Auflösung 14570×12490 angeboten

Beispiele wichtiger Modelle

Llama 3 8B

Ein auf einem Dense-Decoder basierendes Modell mit 8 Milliarden Parametern, das als Referenz-Stack für den Vergleich der Normalisierungs- und Attention-Auswahl von OLMo 2 dient
Verwendet GQA + RoPE-Attention und behält eine Pre-norm-Struktur bei
Veröffentlicht am 18. April 2024

OLMo 2 7B

Ein Dense-Modell mit 7 Milliarden Parametern, das MHA + QK-Norm-Attention verwendet
Verbessert die Trainingsstabilität durch eine Inside-residual post-norm-Struktur
Veröffentlicht am 25. November 2024

DeepSeek V3

Ein Sparse-MoE-Modell mit insgesamt 671 Milliarden Parametern, von denen 37 Milliarden aktiv sind
Kombiniert MLA-Attention mit einer Shared-Expert-Struktur
Eine repräsentative Vorlage, die den Boom großer offener MoE-Modelle auslöste

DeepSeek R1

Eine auf Inferenz bzw. Reasoning spezialisierte Version auf Basis von DeepSeek V3, die dieselbe Architektur beibehält
Veröffentlicht am 20. Januar 2025, mit MLA-basiertem Sparse-MoE-Aufbau

Gemma 3 27B

Ein Dense-Modell mit 27 Milliarden Parametern, das GQA + QK-Norm sowie 5:1 Sliding-Window/Global Attention verwendet
Kennzeichnend sind ein erweiterter mehrsprachiger Wortschatz und verstärkte lokale Attention
Veröffentlicht am 11. März 2025

Erweiterung von MoE- und Hybrid-Architekturen

Llama 4 Maverick

Ein Sparse-MoE-Modell von Meta, das auf der DeepSeek-V3-Architektur basiert, jedoch traditionelle GQA-Attention übernimmt
Von insgesamt 400 Milliarden Parametern sind 17 Milliarden aktiv
Dense- und MoE-Blöcke werden abwechselnd angeordnet, bei reduzierter Expert*innenzahl und größerem Maßstab

Qwen3 235B-A22B

In einer Sparse-MoE-Struktur ähnlich DeepSeek V3 wurde der Shared Expert entfernt
Von insgesamt 235 Milliarden Parametern sind 22 Milliarden aktiv, verwendet GQA + QK-Norm
Veröffentlicht am 28. April 2025

Kimi K2

Ein Sparse-MoE-Modell im Umfang von 1 Billion Parametern, das DeepSeek V3 erweitert
Verwendet MLA-Attention, erhöht die Zahl der Experten und reduziert die Zahl der MLA-Head(s)
Veröffentlicht am 10. Juli 2025

GLM-4.5 355B

Ein agentenorientiertes Sparse-MoE-Modell, das DeepSeeks Dense-prefix MoE-Struktur übernimmt
Von insgesamt 355 Milliarden Parametern sind 32 Milliarden aktiv, verwendet GQA + QK-Norm
Veröffentlicht am 28. Juli 2025

GPT-OSS 20B / 120B

OpenAIs Open-Weight-MoE-Serie, die GQA-basierte Sliding-Window/Global Cross-Attention verwendet
Das 20B-Modell hat eine flache und breite Struktur, das 120B-Modell skaliert dasselbe Design hoch
Veröffentlicht am 4. August 2025

Hybrid- und Architekturen der nächsten Generation

Qwen3 Next 80B-A3B

Ein Sparse-Hybrid-Modell mit gemischter Attention aus Gated DeltaNet + Gated Attention
Von insgesamt 80 Milliarden Parametern sind 3 Milliarden aktiv, unterstützt 262k Kontext
Veröffentlicht am 9. September 2025

Kimi Linear 48B-A3B

Eine hybride Struktur, die Linear Attention + MLA kombiniert
Verbessert die Effizienz bei langen Kontexten durch NoPE und kanalweises Gating
Veröffentlicht am 30. Oktober 2025

Nemotron 3 Nano / Super

Ein Transformer-State-Space-Hybrid-Modell von NVIDIA
Nano (30B) nutzt Mamba-2 + MoE, Super (120B) ergänzt LatentMoE + MTP
Veröffentlicht jeweils am 4. Dezember 2025 bzw. 11. März 2026

Ling 2.5 1T

Ein Sparse-Hybrid-Modell mit 1 Billion Parametern und einer Kombination aus Lightning Attention + MLA
63 Milliarden aktive Parameter, mit einer 7:1-Verteilung von linearer/MLA-Attention
Veröffentlicht am 15. Februar 2026

Neueste Open-Weight-Modelle

Qwen3.5 397B

Flaggschiffmodell, das die hybride Attention von Qwen3 Next übernimmt
Von insgesamt 397 Milliarden Parametern sind 17 Milliarden aktiv, mit 512 Experten
Veröffentlicht am 16. Februar 2026

Sarvam 30B / 105B

Ein Sparse-MoE-Modell mit Schwerpunkt auf Unterstützung indischer Sprachen
30B verwendet GQA + QK-Norm, 105B nutzt MLA + NoPE + RoPE
Veröffentlicht am 3. März 2026

Referenzartikel

The Big LLM Architecture Comparison: Erläutert die Designunterschiede von Dense-, MoE-, MLA- und Hybrid-Decoder-Architekturen
A Dream of Spring for Open-Weight LLMs: Zusätzliche Analyse von Open-Weight-Modellen wie MiniMax, Qwen, Ling und Sarvam, die Anfang 2026 veröffentlicht wurden

2 Kommentare

orange 2026-03-17

Interessant.

GN⁺ 2026-03-16

Hacker-News-Kommentare

Ich fand es interessant zu sehen, dass sich Open-Weight-Modelle nach vielen Jahren des Experimentierens letztlich auf eine ähnliche Form angenähert haben
Es gab viele verschiedene Versuche wie MoE-Routing, State-Space-Modelle und lineare Attention, aber inzwischen hat sich im Wesentlichen eine Kombination aus dense decoder-only transformer mit RMSNorm, Rotary Position Embedding, SwiGLU und Grouped-Query Attention etabliert
Der eigentliche Schlüssel zur Differenzierung hat sich nun auf Trainingsrezepte und Datenpipelines verlagert
Die echte Innovation von DeepSeek-R1 war nicht die Architektur, sondern Reinforcement Learning für die Inferenzkette, und auch bei Llama 3 ist die Architektur fast unverändert geblieben, während Daten und Post-Processing komplett neu aufgesetzt wurden
Das ähnelt der Entwicklung im Chipdesign, wo Fertigungsprozess und Mikroarchitektur wichtiger geworden sind als die ISA
Sebastians Texte sind immer lesenswert
Ich kann sein Buch Build an LLM From Scratch sehr empfehlen. Erst durch dieses Buch habe ich den Transformer-Mechanismus wirklich richtig verstanden
Wenn man sich die LLM Architecture Gallery ansieht, sind die Unterschiede zwischen den Modellen zwar interessant, aber seit GPT-2 gab es in den letzten 7 Jahren kaum grundlegende Innovationen
Auch die heutigen Open-Weight-Modelle sind aus der Distanz betrachtet immer noch eine wiederholte Struktur aus Attention- und Feed-Forward-Schichten, ähnlich wie GPT-2
Die sprunghaften Fortschritte der letzten Zeit verdanken sich Scaling und neuen Trainingsmethoden (RLVR usw.), was wie ein weiteres Beispiel für die Bitter Lesson wirkt
Eine wirklich großartige Visualisierung. Sie erinnert mich an den Neural Network Zoo, den ich früher gesehen habe
Wie dieses Projekt, das verschiedene neuronale Netzwerkarchitekturen auf einen Blick zeigte, vermittelt auch diese Übersicht sehr gut die Vielfalt der Architekturen
Hervorragende Arbeit
Ich frage mich, ob es eine Sortierlogik gibt. Es wäre noch besser, wenn man den Verlauf der Evolution oder die Abstammung der Innovationen in Form eines Stammbaums sehen könnte
Außerdem könnte man die Veränderungen der Modellgröße maßstäblich visualisieren, damit man das Entwicklungstempo intuitiver erfassen kann
- Als Material zur Evolution der DeepSeek-Familie kann man diesen Artikel heranziehen
Wirklich großartig. Danke fürs Teilen
Eine zoombare Version gibt es hier
Als Statistiker wollte ich schon immer ein modulares Verständnis, das von der Idee „neuronale Netze approximieren Funktionen“ zur tatsächlichen Engineering-Praxis von Machine-Learning-Modellen führt
Dieses Material fühlt sich an, als würde es genau diese Lücke schließen
Ich frage mich, mit welchem Tool dieses Diagramm erstellt wurde
Eine interessante Sammlung
Wenn man Prompt-Muster tatsächlich vergleicht, zeigen sich Architekturunterschiede auf unerwartete Weise
Zum Beispiel führt ein langes Kontextfenster nicht nur dazu, dass mehr Text verarbeitet werden kann, sondern auch dazu, dass die Struktur der Eingabe selbst anders gestaltet werden muss
Ich frage mich, welches strukturell einfachste und dennoch wettbewerbsfähige Modell ist
- Wettbewerbsfähigkeit kommt eher von Größe, Daten und Fine-Tuning-Daten als von der Architektur
  In den letzten Jahren gab es kaum architektonische Innovationen; die meisten Änderungen dienten vor allem der Steigerung der Trainingseffizienz
- Wenn man „wettbewerbsfähig“ großzügig definiert, könnte man auch direkt eine Markov-Kette implementieren
  Transformer-Modelle sind das Ergebnis einer schrittweisen Weiterentwicklung auf Basis zahlreicher vorangegangener Forschungsarbeiten
Als ich geklickt habe, dachte ich, es ginge darum, wie ein LLM Wolkenkratzer, Dämme oder Brücken entwirft
Ich hatte sogar schon Popcorn bereitgelegt, also ein bisschen schade

LLM-Architektur-Galerie

Überblick

Beispiele wichtiger Modelle

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

Erweiterung von MoE- und Hybrid-Architekturen

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Hybrid- und Architekturen der nächsten Generation

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

Neueste Open-Weight-Modelle

Qwen3.5 397B

Sarvam 30B / 105B

Referenzartikel

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare