- Eine Online-Galerie, die Strukturschemata und zentrale Spezifikationen der neuesten Large Language Models (LLMs) auf einen Blick zusammenfasst, einschließlich wichtiger Modelle, die zwischen 2024 und 2026 veröffentlicht wurden
- Jedes Modell ist in Tabellenform aufbereitet und fasst Parametergröße, Decoder-Typ, Attention-Verfahren und zentrale Designpunkte zusammen
- Das Material ist den Vergleichsartikeln von Sebastian Raschka entnommen: „The Big LLM Architecture Comparison“ und „A Dream of Spring for Open-Weight LLMs“
- Nutzer können auf den Modellnamen klicken, um zur jeweiligen Detailbeschreibung zu springen, oder auf das Bild klicken, um das hochauflösende Architekturschema (182 Megapixel) zu vergrößern
- Als Architektur-Datenbank zum Nachschlagen für Open-Weight-LLM-Forscher und -Entwickler ermöglicht sie, die Entwicklung aktueller MoE-, Hybrid- und Dense-Architekturen an einem Ort nachzuvollziehen
Überblick
- Diese Seite ist eine Galerie mit LLM-Architekturschemata und Fact Sheets, in der ausschließlich die Diagramme aus Raschkas zwei großen Vergleichsartikeln zusammengestellt wurden
- Originalquellen: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- Jeder Modelleintrag besteht aus Modellname, Parameteranzahl, Veröffentlichungsdatum, Decoder-Typ, Attention-Verfahren, zentralen Designmerkmalen und Links zu verwandten Konzepten
- Falsche Informationen oder fehlerhafte Links können über den GitHub-Issue-Tracker gemeldet werden
- Aufgrund hoher Nachfrage wird über Zazzle auch eine Poster-Version (56 MB PNG) in der Auflösung 14570×12490 angeboten
Beispiele wichtiger Modelle
Llama 3 8B
- Ein auf einem Dense-Decoder basierendes Modell mit 8 Milliarden Parametern, das als Referenz-Stack für den Vergleich der Normalisierungs- und Attention-Auswahl von OLMo 2 dient
- Verwendet GQA + RoPE-Attention und behält eine Pre-norm-Struktur bei
- Veröffentlicht am 18. April 2024
OLMo 2 7B
- Ein Dense-Modell mit 7 Milliarden Parametern, das MHA + QK-Norm-Attention verwendet
- Verbessert die Trainingsstabilität durch eine Inside-residual post-norm-Struktur
- Veröffentlicht am 25. November 2024
DeepSeek V3
- Ein Sparse-MoE-Modell mit insgesamt 671 Milliarden Parametern, von denen 37 Milliarden aktiv sind
- Kombiniert MLA-Attention mit einer Shared-Expert-Struktur
- Eine repräsentative Vorlage, die den Boom großer offener MoE-Modelle auslöste
DeepSeek R1
- Eine auf Inferenz bzw. Reasoning spezialisierte Version auf Basis von DeepSeek V3, die dieselbe Architektur beibehält
- Veröffentlicht am 20. Januar 2025, mit MLA-basiertem Sparse-MoE-Aufbau
Gemma 3 27B
- Ein Dense-Modell mit 27 Milliarden Parametern, das GQA + QK-Norm sowie 5:1 Sliding-Window/Global Attention verwendet
- Kennzeichnend sind ein erweiterter mehrsprachiger Wortschatz und verstärkte lokale Attention
- Veröffentlicht am 11. März 2025
Erweiterung von MoE- und Hybrid-Architekturen
Llama 4 Maverick
- Ein Sparse-MoE-Modell von Meta, das auf der DeepSeek-V3-Architektur basiert, jedoch traditionelle GQA-Attention übernimmt
- Von insgesamt 400 Milliarden Parametern sind 17 Milliarden aktiv
- Dense- und MoE-Blöcke werden abwechselnd angeordnet, bei reduzierter Expert*innenzahl und größerem Maßstab
Qwen3 235B-A22B
- In einer Sparse-MoE-Struktur ähnlich DeepSeek V3 wurde der Shared Expert entfernt
- Von insgesamt 235 Milliarden Parametern sind 22 Milliarden aktiv, verwendet GQA + QK-Norm
- Veröffentlicht am 28. April 2025
Kimi K2
- Ein Sparse-MoE-Modell im Umfang von 1 Billion Parametern, das DeepSeek V3 erweitert
- Verwendet MLA-Attention, erhöht die Zahl der Experten und reduziert die Zahl der MLA-Head(s)
- Veröffentlicht am 10. Juli 2025
GLM-4.5 355B
- Ein agentenorientiertes Sparse-MoE-Modell, das DeepSeeks Dense-prefix MoE-Struktur übernimmt
- Von insgesamt 355 Milliarden Parametern sind 32 Milliarden aktiv, verwendet GQA + QK-Norm
- Veröffentlicht am 28. Juli 2025
GPT-OSS 20B / 120B
- OpenAIs Open-Weight-MoE-Serie, die GQA-basierte Sliding-Window/Global Cross-Attention verwendet
- Das 20B-Modell hat eine flache und breite Struktur, das 120B-Modell skaliert dasselbe Design hoch
- Veröffentlicht am 4. August 2025
Hybrid- und Architekturen der nächsten Generation
Qwen3 Next 80B-A3B
- Ein Sparse-Hybrid-Modell mit gemischter Attention aus Gated DeltaNet + Gated Attention
- Von insgesamt 80 Milliarden Parametern sind 3 Milliarden aktiv, unterstützt 262k Kontext
- Veröffentlicht am 9. September 2025
Kimi Linear 48B-A3B
- Eine hybride Struktur, die Linear Attention + MLA kombiniert
- Verbessert die Effizienz bei langen Kontexten durch NoPE und kanalweises Gating
- Veröffentlicht am 30. Oktober 2025
Nemotron 3 Nano / Super
- Ein Transformer-State-Space-Hybrid-Modell von NVIDIA
- Nano (30B) nutzt Mamba-2 + MoE, Super (120B) ergänzt LatentMoE + MTP
- Veröffentlicht jeweils am 4. Dezember 2025 bzw. 11. März 2026
Ling 2.5 1T
- Ein Sparse-Hybrid-Modell mit 1 Billion Parametern und einer Kombination aus Lightning Attention + MLA
- 63 Milliarden aktive Parameter, mit einer 7:1-Verteilung von linearer/MLA-Attention
- Veröffentlicht am 15. Februar 2026
Neueste Open-Weight-Modelle
Qwen3.5 397B
- Flaggschiffmodell, das die hybride Attention von Qwen3 Next übernimmt
- Von insgesamt 397 Milliarden Parametern sind 17 Milliarden aktiv, mit 512 Experten
- Veröffentlicht am 16. Februar 2026
Sarvam 30B / 105B
- Ein Sparse-MoE-Modell mit Schwerpunkt auf Unterstützung indischer Sprachen
- 30B verwendet GQA + QK-Norm, 105B nutzt MLA + NoPE + RoPE
- Veröffentlicht am 3. März 2026
Referenzartikel
- The Big LLM Architecture Comparison: Erläutert die Designunterschiede von Dense-, MoE-, MLA- und Hybrid-Decoder-Architekturen
- A Dream of Spring for Open-Weight LLMs: Zusätzliche Analyse von Open-Weight-Modellen wie MiniMax, Qwen, Ling und Sarvam, die Anfang 2026 veröffentlicht wurden
2 Kommentare
Interessant.
Hacker-News-Kommentare
Ich fand es interessant zu sehen, dass sich Open-Weight-Modelle nach vielen Jahren des Experimentierens letztlich auf eine ähnliche Form angenähert haben
Es gab viele verschiedene Versuche wie MoE-Routing, State-Space-Modelle und lineare Attention, aber inzwischen hat sich im Wesentlichen eine Kombination aus dense decoder-only transformer mit RMSNorm, Rotary Position Embedding, SwiGLU und Grouped-Query Attention etabliert
Der eigentliche Schlüssel zur Differenzierung hat sich nun auf Trainingsrezepte und Datenpipelines verlagert
Die echte Innovation von DeepSeek-R1 war nicht die Architektur, sondern Reinforcement Learning für die Inferenzkette, und auch bei Llama 3 ist die Architektur fast unverändert geblieben, während Daten und Post-Processing komplett neu aufgesetzt wurden
Das ähnelt der Entwicklung im Chipdesign, wo Fertigungsprozess und Mikroarchitektur wichtiger geworden sind als die ISA
Sebastians Texte sind immer lesenswert
Ich kann sein Buch Build an LLM From Scratch sehr empfehlen. Erst durch dieses Buch habe ich den Transformer-Mechanismus wirklich richtig verstanden
Wenn man sich die LLM Architecture Gallery ansieht, sind die Unterschiede zwischen den Modellen zwar interessant, aber seit GPT-2 gab es in den letzten 7 Jahren kaum grundlegende Innovationen
Auch die heutigen Open-Weight-Modelle sind aus der Distanz betrachtet immer noch eine wiederholte Struktur aus Attention- und Feed-Forward-Schichten, ähnlich wie GPT-2
Die sprunghaften Fortschritte der letzten Zeit verdanken sich Scaling und neuen Trainingsmethoden (RLVR usw.), was wie ein weiteres Beispiel für die Bitter Lesson wirkt
Eine wirklich großartige Visualisierung. Sie erinnert mich an den Neural Network Zoo, den ich früher gesehen habe
Wie dieses Projekt, das verschiedene neuronale Netzwerkarchitekturen auf einen Blick zeigte, vermittelt auch diese Übersicht sehr gut die Vielfalt der Architekturen
Hervorragende Arbeit
Ich frage mich, ob es eine Sortierlogik gibt. Es wäre noch besser, wenn man den Verlauf der Evolution oder die Abstammung der Innovationen in Form eines Stammbaums sehen könnte
Außerdem könnte man die Veränderungen der Modellgröße maßstäblich visualisieren, damit man das Entwicklungstempo intuitiver erfassen kann
Wirklich großartig. Danke fürs Teilen
Eine zoombare Version gibt es hier
Als Statistiker wollte ich schon immer ein modulares Verständnis, das von der Idee „neuronale Netze approximieren Funktionen“ zur tatsächlichen Engineering-Praxis von Machine-Learning-Modellen führt
Dieses Material fühlt sich an, als würde es genau diese Lücke schließen
Ich frage mich, mit welchem Tool dieses Diagramm erstellt wurde
Eine interessante Sammlung
Wenn man Prompt-Muster tatsächlich vergleicht, zeigen sich Architekturunterschiede auf unerwartete Weise
Zum Beispiel führt ein langes Kontextfenster nicht nur dazu, dass mehr Text verarbeitet werden kann, sondern auch dazu, dass die Struktur der Eingabe selbst anders gestaltet werden muss
Ich frage mich, welches strukturell einfachste und dennoch wettbewerbsfähige Modell ist
In den letzten Jahren gab es kaum architektonische Innovationen; die meisten Änderungen dienten vor allem der Steigerung der Trainingseffizienz
Transformer-Modelle sind das Ergebnis einer schrittweisen Weiterentwicklung auf Basis zahlreicher vorangegangener Forschungsarbeiten
Als ich geklickt habe, dachte ich, es ginge darum, wie ein LLM Wolkenkratzer, Dämme oder Brücken entwirft
Ich hatte sogar schon Popcorn bereitgelegt, also ein bisschen schade