50 Punkte von GN⁺ 2026-03-16 | 2 Kommentare | Auf WhatsApp teilen
  • Eine Online-Galerie, die Strukturschemata und zentrale Spezifikationen der neuesten Large Language Models (LLMs) auf einen Blick zusammenfasst, einschließlich wichtiger Modelle, die zwischen 2024 und 2026 veröffentlicht wurden
  • Jedes Modell ist in Tabellenform aufbereitet und fasst Parametergröße, Decoder-Typ, Attention-Verfahren und zentrale Designpunkte zusammen
  • Das Material ist den Vergleichsartikeln von Sebastian Raschka entnommen: „The Big LLM Architecture Comparison“ und „A Dream of Spring for Open-Weight LLMs“
  • Nutzer können auf den Modellnamen klicken, um zur jeweiligen Detailbeschreibung zu springen, oder auf das Bild klicken, um das hochauflösende Architekturschema (182 Megapixel) zu vergrößern
  • Als Architektur-Datenbank zum Nachschlagen für Open-Weight-LLM-Forscher und -Entwickler ermöglicht sie, die Entwicklung aktueller MoE-, Hybrid- und Dense-Architekturen an einem Ort nachzuvollziehen

Überblick

  • Diese Seite ist eine Galerie mit LLM-Architekturschemata und Fact Sheets, in der ausschließlich die Diagramme aus Raschkas zwei großen Vergleichsartikeln zusammengestellt wurden
    • Originalquellen: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • Jeder Modelleintrag besteht aus Modellname, Parameteranzahl, Veröffentlichungsdatum, Decoder-Typ, Attention-Verfahren, zentralen Designmerkmalen und Links zu verwandten Konzepten
  • Falsche Informationen oder fehlerhafte Links können über den GitHub-Issue-Tracker gemeldet werden
  • Aufgrund hoher Nachfrage wird über Zazzle auch eine Poster-Version (56 MB PNG) in der Auflösung 14570×12490 angeboten

Beispiele wichtiger Modelle

Llama 3 8B

  • Ein auf einem Dense-Decoder basierendes Modell mit 8 Milliarden Parametern, das als Referenz-Stack für den Vergleich der Normalisierungs- und Attention-Auswahl von OLMo 2 dient
  • Verwendet GQA + RoPE-Attention und behält eine Pre-norm-Struktur bei
  • Veröffentlicht am 18. April 2024

OLMo 2 7B

  • Ein Dense-Modell mit 7 Milliarden Parametern, das MHA + QK-Norm-Attention verwendet
  • Verbessert die Trainingsstabilität durch eine Inside-residual post-norm-Struktur
  • Veröffentlicht am 25. November 2024

DeepSeek V3

  • Ein Sparse-MoE-Modell mit insgesamt 671 Milliarden Parametern, von denen 37 Milliarden aktiv sind
  • Kombiniert MLA-Attention mit einer Shared-Expert-Struktur
  • Eine repräsentative Vorlage, die den Boom großer offener MoE-Modelle auslöste

DeepSeek R1

  • Eine auf Inferenz bzw. Reasoning spezialisierte Version auf Basis von DeepSeek V3, die dieselbe Architektur beibehält
  • Veröffentlicht am 20. Januar 2025, mit MLA-basiertem Sparse-MoE-Aufbau

Gemma 3 27B

  • Ein Dense-Modell mit 27 Milliarden Parametern, das GQA + QK-Norm sowie 5:1 Sliding-Window/Global Attention verwendet
  • Kennzeichnend sind ein erweiterter mehrsprachiger Wortschatz und verstärkte lokale Attention
  • Veröffentlicht am 11. März 2025

Erweiterung von MoE- und Hybrid-Architekturen

Llama 4 Maverick

  • Ein Sparse-MoE-Modell von Meta, das auf der DeepSeek-V3-Architektur basiert, jedoch traditionelle GQA-Attention übernimmt
  • Von insgesamt 400 Milliarden Parametern sind 17 Milliarden aktiv
  • Dense- und MoE-Blöcke werden abwechselnd angeordnet, bei reduzierter Expert*innenzahl und größerem Maßstab

Qwen3 235B-A22B

  • In einer Sparse-MoE-Struktur ähnlich DeepSeek V3 wurde der Shared Expert entfernt
  • Von insgesamt 235 Milliarden Parametern sind 22 Milliarden aktiv, verwendet GQA + QK-Norm
  • Veröffentlicht am 28. April 2025

Kimi K2

  • Ein Sparse-MoE-Modell im Umfang von 1 Billion Parametern, das DeepSeek V3 erweitert
  • Verwendet MLA-Attention, erhöht die Zahl der Experten und reduziert die Zahl der MLA-Head(s)
  • Veröffentlicht am 10. Juli 2025

GLM-4.5 355B

  • Ein agentenorientiertes Sparse-MoE-Modell, das DeepSeeks Dense-prefix MoE-Struktur übernimmt
  • Von insgesamt 355 Milliarden Parametern sind 32 Milliarden aktiv, verwendet GQA + QK-Norm
  • Veröffentlicht am 28. Juli 2025

GPT-OSS 20B / 120B

  • OpenAIs Open-Weight-MoE-Serie, die GQA-basierte Sliding-Window/Global Cross-Attention verwendet
  • Das 20B-Modell hat eine flache und breite Struktur, das 120B-Modell skaliert dasselbe Design hoch
  • Veröffentlicht am 4. August 2025

Hybrid- und Architekturen der nächsten Generation

Qwen3 Next 80B-A3B

  • Ein Sparse-Hybrid-Modell mit gemischter Attention aus Gated DeltaNet + Gated Attention
  • Von insgesamt 80 Milliarden Parametern sind 3 Milliarden aktiv, unterstützt 262k Kontext
  • Veröffentlicht am 9. September 2025

Kimi Linear 48B-A3B

  • Eine hybride Struktur, die Linear Attention + MLA kombiniert
  • Verbessert die Effizienz bei langen Kontexten durch NoPE und kanalweises Gating
  • Veröffentlicht am 30. Oktober 2025

Nemotron 3 Nano / Super

  • Ein Transformer-State-Space-Hybrid-Modell von NVIDIA
  • Nano (30B) nutzt Mamba-2 + MoE, Super (120B) ergänzt LatentMoE + MTP
  • Veröffentlicht jeweils am 4. Dezember 2025 bzw. 11. März 2026

Ling 2.5 1T

  • Ein Sparse-Hybrid-Modell mit 1 Billion Parametern und einer Kombination aus Lightning Attention + MLA
  • 63 Milliarden aktive Parameter, mit einer 7:1-Verteilung von linearer/MLA-Attention
  • Veröffentlicht am 15. Februar 2026

Neueste Open-Weight-Modelle

Qwen3.5 397B

  • Flaggschiffmodell, das die hybride Attention von Qwen3 Next übernimmt
  • Von insgesamt 397 Milliarden Parametern sind 17 Milliarden aktiv, mit 512 Experten
  • Veröffentlicht am 16. Februar 2026

Sarvam 30B / 105B

  • Ein Sparse-MoE-Modell mit Schwerpunkt auf Unterstützung indischer Sprachen
  • 30B verwendet GQA + QK-Norm, 105B nutzt MLA + NoPE + RoPE
  • Veröffentlicht am 3. März 2026

Referenzartikel

  • The Big LLM Architecture Comparison: Erläutert die Designunterschiede von Dense-, MoE-, MLA- und Hybrid-Decoder-Architekturen
  • A Dream of Spring for Open-Weight LLMs: Zusätzliche Analyse von Open-Weight-Modellen wie MiniMax, Qwen, Ling und Sarvam, die Anfang 2026 veröffentlicht wurden

2 Kommentare

 
orange 2026-03-17

Interessant.

 
GN⁺ 2026-03-16
Hacker-News-Kommentare
  • Ich fand es interessant zu sehen, dass sich Open-Weight-Modelle nach vielen Jahren des Experimentierens letztlich auf eine ähnliche Form angenähert haben
    Es gab viele verschiedene Versuche wie MoE-Routing, State-Space-Modelle und lineare Attention, aber inzwischen hat sich im Wesentlichen eine Kombination aus dense decoder-only transformer mit RMSNorm, Rotary Position Embedding, SwiGLU und Grouped-Query Attention etabliert
    Der eigentliche Schlüssel zur Differenzierung hat sich nun auf Trainingsrezepte und Datenpipelines verlagert
    Die echte Innovation von DeepSeek-R1 war nicht die Architektur, sondern Reinforcement Learning für die Inferenzkette, und auch bei Llama 3 ist die Architektur fast unverändert geblieben, während Daten und Post-Processing komplett neu aufgesetzt wurden
    Das ähnelt der Entwicklung im Chipdesign, wo Fertigungsprozess und Mikroarchitektur wichtiger geworden sind als die ISA

  • Sebastians Texte sind immer lesenswert
    Ich kann sein Buch Build an LLM From Scratch sehr empfehlen. Erst durch dieses Buch habe ich den Transformer-Mechanismus wirklich richtig verstanden
    Wenn man sich die LLM Architecture Gallery ansieht, sind die Unterschiede zwischen den Modellen zwar interessant, aber seit GPT-2 gab es in den letzten 7 Jahren kaum grundlegende Innovationen
    Auch die heutigen Open-Weight-Modelle sind aus der Distanz betrachtet immer noch eine wiederholte Struktur aus Attention- und Feed-Forward-Schichten, ähnlich wie GPT-2
    Die sprunghaften Fortschritte der letzten Zeit verdanken sich Scaling und neuen Trainingsmethoden (RLVR usw.), was wie ein weiteres Beispiel für die Bitter Lesson wirkt

  • Eine wirklich großartige Visualisierung. Sie erinnert mich an den Neural Network Zoo, den ich früher gesehen habe
    Wie dieses Projekt, das verschiedene neuronale Netzwerkarchitekturen auf einen Blick zeigte, vermittelt auch diese Übersicht sehr gut die Vielfalt der Architekturen

  • Hervorragende Arbeit
    Ich frage mich, ob es eine Sortierlogik gibt. Es wäre noch besser, wenn man den Verlauf der Evolution oder die Abstammung der Innovationen in Form eines Stammbaums sehen könnte
    Außerdem könnte man die Veränderungen der Modellgröße maßstäblich visualisieren, damit man das Entwicklungstempo intuitiver erfassen kann

    • Als Material zur Evolution der DeepSeek-Familie kann man diesen Artikel heranziehen
  • Wirklich großartig. Danke fürs Teilen
    Eine zoombare Version gibt es hier

  • Als Statistiker wollte ich schon immer ein modulares Verständnis, das von der Idee „neuronale Netze approximieren Funktionen“ zur tatsächlichen Engineering-Praxis von Machine-Learning-Modellen führt
    Dieses Material fühlt sich an, als würde es genau diese Lücke schließen

  • Ich frage mich, mit welchem Tool dieses Diagramm erstellt wurde

  • Eine interessante Sammlung
    Wenn man Prompt-Muster tatsächlich vergleicht, zeigen sich Architekturunterschiede auf unerwartete Weise
    Zum Beispiel führt ein langes Kontextfenster nicht nur dazu, dass mehr Text verarbeitet werden kann, sondern auch dazu, dass die Struktur der Eingabe selbst anders gestaltet werden muss

  • Ich frage mich, welches strukturell einfachste und dennoch wettbewerbsfähige Modell ist

    • Wettbewerbsfähigkeit kommt eher von Größe, Daten und Fine-Tuning-Daten als von der Architektur
      In den letzten Jahren gab es kaum architektonische Innovationen; die meisten Änderungen dienten vor allem der Steigerung der Trainingseffizienz
    • Wenn man „wettbewerbsfähig“ großzügig definiert, könnte man auch direkt eine Markov-Kette implementieren
      Transformer-Modelle sind das Ergebnis einer schrittweisen Weiterentwicklung auf Basis zahlreicher vorangegangener Forschungsarbeiten
  • Als ich geklickt habe, dachte ich, es ginge darum, wie ein LLM Wolkenkratzer, Dämme oder Brücken entwirft
    Ich hatte sogar schon Popcorn bereitgelegt, also ein bisschen schade