Vergleich der Architekturen großer LLMs

(magazine.sebastianraschka.com)

26 Punkte von GN⁺ 2025-07-21 | 2 Kommentare | Auf WhatsApp teilen

Die LLM-Architekturen der letzten 7 Jahre haben sich von GPT-2 (2019) bis zu DeepSeek-V3 und Llama 4 (2024–2025) ohne große strukturelle Veränderungen weiterentwickelt und dabei eine erstaunliche Ähnlichkeit bewahrt
Aktuelle Modelle wie DeepSeek V3/R1, Llama 4 führen neue Optimierungsansätze wie Mixture-of-Experts (MoE), MLA, Sliding Window Attention ein und verbessern damit Speichereffizienz und Inferenzleistung
Einige Open-Source-Modelle wie OLMo 2, Gemma 3 fallen durch transparente Datenoffenlegung und eine ungewöhnliche Platzierung der Normalization Layer als gute Designbeispiele für Forschung und Entwicklung auf
Mit Modellen unterschiedlicher Größe und Struktur wie Qwen3, SmolLM3, Kimi 2 hat sich die Auswahl je nach Vor- und Nachteilen sowie Einsatzzweck von MoE- und Dense-Architekturen erweitert
Der gemeinsame Trend aktueller LLMs ist neben größerem Maßstab und höherer Komplexität die Verbesserung effizienter Strukturen und die Anpassung an verschiedene Hardware-Umgebungen

Einleitung

Seit dem GPT-Prototyp von 2017 zeigt sich von GPT-2 (2019) bis DeepSeek-V3 und Llama 4 (2024–2025), dass LLM-Architekturen im großen Ganzen ähnlich geblieben sind (die grundlegende Transformer-Struktur hat sich kaum verändert)
Positional Embeddings haben sich von absoluten Varianten hin zu Verfahren wie RoPE entwickelt, und Multi-Head Attention geht zu dem speicher- und recheneffizienteren GQA (Grouped Query Attention) über, doch die Grundstruktur bleibt erhalten
Leistungsvergleiche unterscheiden sich je nach Datensatz und Trainingsmethode, daher ist ein direkter Architekturvergleich schwierig
Im Text werden die Veränderungen in der Architektur aktueller offener LLMs gezielt analysiert

1. DeepSeek V3/R1

DeepSeek R1 (Januar 2025) basiert auf der DeepSeek-V3-Architektur (Dezember 2024) und hat mit fortgeschrittenen Reasoning-Fähigkeiten und einer großen Parameterzahl (671 Milliarden) Aufmerksamkeit erregt
Kernarchitektur: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
MLA: komprimiert Key/Value in eine niedrigere Dimension, spart so Speicher für den KV-Cache und liefert bessere Leistung als GQA
MoE: verteilt das FeedForward-Modul auf mehrere Experts; als sparse Struktur werden pro Token nur einige Experts aktiviert
- DeepSeek V3: 256 Experts, insgesamt 671B Parameter, bei der Inferenz werden nur 9 Experts (37B Parameter) genutzt
- Ein stets aktiver Shared Expert verbessert die Effizienz beim Lernen allgemeiner Muster
Merkmale: trotz großer Größe (671B) hohe Inferenzeffizienz, mit MLA Leistungsvorteile gegenüber GQA, mit MoE hohe Trainingskapazität

2. OLMo 2

Vollständig offenes Modell des Allen Institute for AI
Die Stärke liegt weniger in der Leistung als in transparentem Design und offenem Code
Architekturpunkte: RMSNorm-Position (Post-Norm-Anwendung), QK-Norm
- Klassische GPT-Modelle nutzen Pre-Norm, OLMo 2 wendet Normalisierung nach Attention/FeedForward an (eine Post-Norm-Variante)
- QK-Norm: zusätzliche RMSNorm für Query/Key der Attention, verbessert die Trainingsstabilität
Beibehaltung der traditionellen Multi-Head-Attention-(MHA)-Struktur
Ähnlich zu Llama 3 usw., aber mit abweichender Normalisierungsstrategie

3. Gemma 3

Googles wichtiges offenes LLM, auffällig durch großes Vokabular für mehrsprachige Unterstützung und den Fokus auf ein 27B-Modell
Sliding Window Attention (lokales Window) reduziert den Speicherbedarf des KV-Cache deutlich
- Gemma 2: Global/Local 1:1, 4k-Window; Gemma 3: Verhältnis 5:1, Window auf 1024 reduziert
- Kaum Einfluss auf die Leistung (Perplexity)
Normalization: sowohl Pre-Norm- als auch Post-Norm-RMSNorm rund um das GQA-Modul
Gemma 3n: für kleine Geräte, mit Per-Layer Embedding (nur schichtweise Parameter liegen auf der GPU) und MatFormer (Nutzung getrennter Teilmodelle) zur Gewichtsreduktion

4. Mistral Small 3.1

Mistral Small 3.1 24B, schneller als Gemma 3 27B und in Benchmarks im Spitzenfeld
Benutzerdefinierter Tokenizer, reduzierter KV-Cache und weniger Layer zur Minimierung der Inferenzlatenz
Verzichtet auf Sliding Window Attention und setzt stattdessen auf optimiertes GQA + FlashAttention, mit Fokus auf Inferenzgeschwindigkeit und Code-Effizienz

5. Llama 4

Führt die MoE-Architektur aktiv ein, um sowohl Inferenzeffizienz als auch Modellkapazität zu sichern, strukturell ähnlich zu DeepSeek-V3
Verwendet GQA, unterscheidet sich aber in Zahl der MoE-Experts und Hidden Size
- DeepSeek-V3: 9 Experts (2.048), Llama 4: 2 Experts (8.192), aktive Parameter 17B (DeepSeek 37B)
Klassisches MoE-Design mit abwechselnd eingefügten MoE- und Dense-Blöcken
Zeigt die Verbreitung von MoE in aktuellen LLMs

6. Qwen3

Bietet Dense-Versionen in verschiedenen Größen (0.6B–32B) und MoE-Versionen (30B-A3B, 235B-A22B)
Die kleine Version (0.6B) überzeugt bei Trainings- und Inferenzeffizienz sowie Token-Throughput. Sehr starke Leistung unter ultraleichten LLMs, außerdem hervorragende Speichereffizienz und einfache Trainierbarkeit
Dense: mehr Layer, weniger Speicher, aber langsamer (im Vergleich zu Llama 3 1B)
MoE: Qwen3 235B-A22B hat 22B aktive Parameter und nutzt keinen Shared Expert (früheres Qwen2.5-MoE enthielt einen Shared Expert), was die Effizienz erhöht
Qwen3 235B-A22B und DeepSeek-V3 sind in ihrer Gesamtstruktur sehr ähnlich
Durch das Angebot von Dense und MoE wird eine Vielzahl von Einsatzzwecken abgedeckt

7. SmolLM3

Kleines Modell mit rund 3B Parametern, konkurriert mit Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
Die Architektur ist standardmäßig, setzt aber auf NoPE (No Positional Embedding)
- Verwendet nur eine Causal Mask ohne Positional Encoding wie RoPE
- Verbessert die Längengeneralisierung (Length Generalization) bei langen Sequenzen
- Experimentelle Struktur, nur auf einige Layer angewandt

8. Kimi 2

Großes offenes Modell mit 1 Billion Parametern, das größte unter den offenen Modellen
Basiert auf der DeepSeek-V3-Struktur, erweitert die Zahl der MoE-Layer und passt die Zahl der MLA-Heads an
Verwendet beim Training den Muon-Optimizer statt AdamW und verbessert so die Trainingseffizienz sowie den Loss Decay
Im Vergleich zu DeepSeek-V3 mehr MoE-Experts, aber weniger MLA-Heads
Baut auf den Erfahrungen mit Kimi 1.5 auf und erreicht mit Kimi 2 durch Open-Weight-Veröffentlichung Leistung auf Spitzenniveau

Fazit und Trends

Aktuelle LLMs behalten ihre grundlegende Struktur bei, zeichnen sich jedoch durch Skalierung der Architektur sowie die Einführung von MoE und diversen Effizienzstrukturen aus
Bei offenen Modellen steigt der Wert für Forschung und industrielle Nutzung durch transparente Daten, offenes Design und offenen Code
Dense und MoE, MLA·GQA·Sliding Window Attention sowie verschiedene Normalisierungsstrategien setzen je nach Modell unterschiedliche Optimierungsschwerpunkte
Es ist eine Phase, in der sich die Auswahl an Architekturen je nach Hardware-Umgebung, Einsatzzweck sowie Trainings- und Inferenzeffizienz stark erweitert hat

2 Kommentare

tensun 2025-07-22

Ich denke, Qwen kommt mit Koreanisch gut zurecht.

GN⁺ 2025-07-21

Hacker-News-Kommentare

Dieser Beitrag hatte genau das richtige Maß an Abstraktion und Detailtiefe, um etwas über LLM-Architekturen zu lernen, sodass ich viel leichter viele Informationen aufnehmen konnte als beim Lesen der Original-Paper.
Für Leute zwischen Anfänger- und Expertenniveau wirken die Diagramme in diesem Artikel besonders beeindruckend; es ist wirklich nützlich, die aktuellen Modelle auf einen Blick zusammengefasst zu sehen.
Ergänzend dazu lohnen sich auch einige Abschnitte aus einem Artikel darüber, wie DeepSeek die Transformer-Architektur verbessert hat sowie einem Analyseartikel zu Metas Superintelligence.
Für Leute wie mich, die mit den neuesten Entwicklungen nicht Schritt halten konnten, sind solche Zusammenfassungen wirklich ein willkommenes catchup.
Ich hoffe, es gibt später noch einen zweiten Teil, der sogar Gerüchte über Closed-Source-Frontier-Modelle wie o5, o3 Pro, o4 oder 4.5, Gemini 2.5 Pro, Grok 4 und Claude Opus 4 einschließt.
Danke für die ausführliche Aufbereitung der Unterschiede zwischen den verschiedenen LLM-Architekturen; dadurch ist es leicht zu verstehen und sehr lehrreich.
Ehrlich gesagt ist das Entwicklungstempo heute im Vergleich zur Zeit von GPT-2 (2019) kaum zu glauben. Inzwischen ist es schon schwer, die Leistung von LLMs überhaupt noch sauber zu vergleichen, weil alle zwei Wochen ein neues Modell die Benchmarks aktualisiert. Es freut mich, dass DeepSeek erwähnt wurde, denn die mit V3 eingeführten Architekturinnovationen haben die Recheneffizienz stark verbessert, und genau das war damals der entscheidende Punkt, der den Abstand zu anderen Modellen beseitigt hat.
Viele neue Architekturen haben bei Genauigkeit oder Geschwindigkeit zahlreiche Innovationen gebracht, aber das grundlegende Problem, die Erzeugung korrekter Informationen zu garantieren, ist noch immer nicht gelöst. Verschiedene Ansätze wie Retrieval Augmented Generation (RAG) oder Agenten verbessern dieses Problem zwar, aber ich frage mich auch, ob künftige Architekturen solche Ansätze am Ende ersetzen werden.
- Grundsätzlich werden Transformer mit dem Ziel trainiert, Text vorherzusagen, und dieser Ansatz hat Grenzen bei der Einbettung von Logik. Um Halluzinationen weiter zu reduzieren, braucht es meiner Meinung nach ein völlig anderes Trainingsziel.
- Das Modell kann nicht unterscheiden, in welchen Situationen es verallgemeinern darf und wann es mehr Informationen braucht. Es kann zum Beispiel nicht leicht unterscheiden, warum eine bestimmte Methode existiert, eine andere ähnliche Funktion aber nicht. Als ich klein war, habe ich meine Mutter einmal als hervorragende cooker bezeichnet, weil ich nicht wusste, dass für Maschinen und Menschen unterschiedliche Wörter verwendet werden. Ich habe das Gefühl, dass eine ähnliche Verallgemeinerung von Wörtern auch auf Modelle zutrifft.
- Neuere Architekturen wie DeepSeek-V2 und Llama 3.1 zeigen, dass sich Faktentreue (factuality) allein durch Designverbesserungen durchaus deutlich steigern lässt. Dahinter stehen insbesondere der Attention-Mechanismus und auf die Unterdrückung von Halluzinationen spezialisierte Trainingsziele.
- RAG (suchbasierte Antworten) ist strukturell einfach und leicht umzusetzen, aber ich habe mich immer gefragt, warum es bis heute nicht in grundlegende LLMs eingebaut wurde. Dass es offenbar nicht direkt in das Modellinnere integriert werden kann, scheint die fundamentalen Grenzen von RAG oder seinen Varianten zu zeigen. Wenn es wirklich ein effektiver Ansatz wäre, wäre es wohl nicht nur ein externer Zusatz, sondern als Grundfunktion in die Architektur aufgenommen worden.
Ich habe Claude angewiesen, den Originaltext zu lesen und eine neue Architektur vorzuschlagen.
Link zu Claudes Ergebnis
Aber ich bin mir nicht sicher, ob dieses Ergebnis tatsächlich brauchbar ist.

Vergleich der Architekturen großer LLMs

Einleitung

1. DeepSeek V3/R1

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

Fazit und Trends

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare