- Die LLM-Architekturen der letzten 7 Jahre haben sich von GPT-2 (2019) bis zu DeepSeek-V3 und Llama 4 (2024–2025) ohne große strukturelle Veränderungen weiterentwickelt und dabei eine erstaunliche Ähnlichkeit bewahrt
- Aktuelle Modelle wie DeepSeek V3/R1, Llama 4 führen neue Optimierungsansätze wie Mixture-of-Experts (MoE), MLA, Sliding Window Attention ein und verbessern damit Speichereffizienz und Inferenzleistung
- Einige Open-Source-Modelle wie OLMo 2, Gemma 3 fallen durch transparente Datenoffenlegung und eine ungewöhnliche Platzierung der Normalization Layer als gute Designbeispiele für Forschung und Entwicklung auf
- Mit Modellen unterschiedlicher Größe und Struktur wie Qwen3, SmolLM3, Kimi 2 hat sich die Auswahl je nach Vor- und Nachteilen sowie Einsatzzweck von MoE- und Dense-Architekturen erweitert
- Der gemeinsame Trend aktueller LLMs ist neben größerem Maßstab und höherer Komplexität die Verbesserung effizienter Strukturen und die Anpassung an verschiedene Hardware-Umgebungen
Einleitung
- Seit dem GPT-Prototyp von 2017 zeigt sich von GPT-2 (2019) bis DeepSeek-V3 und Llama 4 (2024–2025), dass LLM-Architekturen im großen Ganzen ähnlich geblieben sind (die grundlegende Transformer-Struktur hat sich kaum verändert)
- Positional Embeddings haben sich von absoluten Varianten hin zu Verfahren wie RoPE entwickelt, und Multi-Head Attention geht zu dem speicher- und recheneffizienteren GQA (Grouped Query Attention) über, doch die Grundstruktur bleibt erhalten
- Leistungsvergleiche unterscheiden sich je nach Datensatz und Trainingsmethode, daher ist ein direkter Architekturvergleich schwierig
- Im Text werden die Veränderungen in der Architektur aktueller offener LLMs gezielt analysiert
1. DeepSeek V3/R1
- DeepSeek R1 (Januar 2025) basiert auf der DeepSeek-V3-Architektur (Dezember 2024) und hat mit fortgeschrittenen Reasoning-Fähigkeiten und einer großen Parameterzahl (671 Milliarden) Aufmerksamkeit erregt
- Kernarchitektur: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
- MLA: komprimiert Key/Value in eine niedrigere Dimension, spart so Speicher für den KV-Cache und liefert bessere Leistung als GQA
- MoE: verteilt das FeedForward-Modul auf mehrere Experts; als sparse Struktur werden pro Token nur einige Experts aktiviert
- DeepSeek V3: 256 Experts, insgesamt 671B Parameter, bei der Inferenz werden nur 9 Experts (37B Parameter) genutzt
- Ein stets aktiver Shared Expert verbessert die Effizienz beim Lernen allgemeiner Muster
- Merkmale: trotz großer Größe (671B) hohe Inferenzeffizienz, mit MLA Leistungsvorteile gegenüber GQA, mit MoE hohe Trainingskapazität
2. OLMo 2
- Vollständig offenes Modell des Allen Institute for AI
- Die Stärke liegt weniger in der Leistung als in transparentem Design und offenem Code
- Architekturpunkte: RMSNorm-Position (Post-Norm-Anwendung), QK-Norm
- Klassische GPT-Modelle nutzen Pre-Norm, OLMo 2 wendet Normalisierung nach Attention/FeedForward an (eine Post-Norm-Variante)
- QK-Norm: zusätzliche RMSNorm für Query/Key der Attention, verbessert die Trainingsstabilität
- Beibehaltung der traditionellen Multi-Head-Attention-(MHA)-Struktur
- Ähnlich zu Llama 3 usw., aber mit abweichender Normalisierungsstrategie
3. Gemma 3
- Googles wichtiges offenes LLM, auffällig durch großes Vokabular für mehrsprachige Unterstützung und den Fokus auf ein 27B-Modell
- Sliding Window Attention (lokales Window) reduziert den Speicherbedarf des KV-Cache deutlich
- Gemma 2: Global/Local 1:1, 4k-Window; Gemma 3: Verhältnis 5:1, Window auf 1024 reduziert
- Kaum Einfluss auf die Leistung (Perplexity)
- Normalization: sowohl Pre-Norm- als auch Post-Norm-RMSNorm rund um das GQA-Modul
- Gemma 3n: für kleine Geräte, mit Per-Layer Embedding (nur schichtweise Parameter liegen auf der GPU) und MatFormer (Nutzung getrennter Teilmodelle) zur Gewichtsreduktion
4. Mistral Small 3.1
- Mistral Small 3.1 24B, schneller als Gemma 3 27B und in Benchmarks im Spitzenfeld
- Benutzerdefinierter Tokenizer, reduzierter KV-Cache und weniger Layer zur Minimierung der Inferenzlatenz
- Verzichtet auf Sliding Window Attention und setzt stattdessen auf optimiertes GQA + FlashAttention, mit Fokus auf Inferenzgeschwindigkeit und Code-Effizienz
5. Llama 4
- Führt die MoE-Architektur aktiv ein, um sowohl Inferenzeffizienz als auch Modellkapazität zu sichern, strukturell ähnlich zu DeepSeek-V3
- Verwendet GQA, unterscheidet sich aber in Zahl der MoE-Experts und Hidden Size
- DeepSeek-V3: 9 Experts (2.048), Llama 4: 2 Experts (8.192), aktive Parameter 17B (DeepSeek 37B)
- Klassisches MoE-Design mit abwechselnd eingefügten MoE- und Dense-Blöcken
- Zeigt die Verbreitung von MoE in aktuellen LLMs
6. Qwen3
- Bietet Dense-Versionen in verschiedenen Größen (0.6B–32B) und MoE-Versionen (30B-A3B, 235B-A22B)
- Die kleine Version (0.6B) überzeugt bei Trainings- und Inferenzeffizienz sowie Token-Throughput. Sehr starke Leistung unter ultraleichten LLMs, außerdem hervorragende Speichereffizienz und einfache Trainierbarkeit
- Dense: mehr Layer, weniger Speicher, aber langsamer (im Vergleich zu Llama 3 1B)
- MoE: Qwen3 235B-A22B hat 22B aktive Parameter und nutzt keinen Shared Expert (früheres Qwen2.5-MoE enthielt einen Shared Expert), was die Effizienz erhöht
- Qwen3 235B-A22B und DeepSeek-V3 sind in ihrer Gesamtstruktur sehr ähnlich
- Durch das Angebot von Dense und MoE wird eine Vielzahl von Einsatzzwecken abgedeckt
7. SmolLM3
- Kleines Modell mit rund 3B Parametern, konkurriert mit Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
- Die Architektur ist standardmäßig, setzt aber auf NoPE (No Positional Embedding)
- Verwendet nur eine Causal Mask ohne Positional Encoding wie RoPE
- Verbessert die Längengeneralisierung (Length Generalization) bei langen Sequenzen
- Experimentelle Struktur, nur auf einige Layer angewandt
8. Kimi 2
- Großes offenes Modell mit 1 Billion Parametern, das größte unter den offenen Modellen
- Basiert auf der DeepSeek-V3-Struktur, erweitert die Zahl der MoE-Layer und passt die Zahl der MLA-Heads an
- Verwendet beim Training den Muon-Optimizer statt AdamW und verbessert so die Trainingseffizienz sowie den Loss Decay
- Im Vergleich zu DeepSeek-V3 mehr MoE-Experts, aber weniger MLA-Heads
- Baut auf den Erfahrungen mit Kimi 1.5 auf und erreicht mit Kimi 2 durch Open-Weight-Veröffentlichung Leistung auf Spitzenniveau
Fazit und Trends
- Aktuelle LLMs behalten ihre grundlegende Struktur bei, zeichnen sich jedoch durch Skalierung der Architektur sowie die Einführung von MoE und diversen Effizienzstrukturen aus
- Bei offenen Modellen steigt der Wert für Forschung und industrielle Nutzung durch transparente Daten, offenes Design und offenen Code
- Dense und MoE, MLA·GQA·Sliding Window Attention sowie verschiedene Normalisierungsstrategien setzen je nach Modell unterschiedliche Optimierungsschwerpunkte
- Es ist eine Phase, in der sich die Auswahl an Architekturen je nach Hardware-Umgebung, Einsatzzweck sowie Trainings- und Inferenzeffizienz stark erweitert hat
2 Kommentare
Ich denke, Qwen kommt mit Koreanisch gut zurecht.
Hacker-News-Kommentare
Link zu Claudes Ergebnis
Aber ich bin mir nicht sicher, ob dieses Ergebnis tatsächlich brauchbar ist.