Aktuelle Entwicklungen in der LLM-Architektur: KV-Sharing, mHC und komprimierte Attention
(magazine.sebastianraschka.com)- Da sich kürzlich veröffentlichte Open-Weight-LLMs auf Effizienz bei langen Kontexten konzentrieren, nimmt die Zahl der Architekturtricks zur Reduzierung von KV-Cache-Größe, Memory-Traffic und Attention-Kosten schnell zu
- Gemma 4 verbessert mit layerübergreifendem KV-Sharing (cross-layer attention) und Per-Layer Embeddings (PLE) zugleich die Effizienz von KV-Cache und Parametern
- Laguna XS.2 führt mit layer-wise attention budgeting eine unterschiedliche Zuweisung der Query-Head-Anzahl je Layer ein
- ZAYA1-8B führt mit Compressed Convolutional Attention (CCA) Attention-Berechnungen direkt im komprimierten latenten Raum aus und senkt damit nicht nur den KV-Cache, sondern auch die Attention-FLOPs
- DeepSeek V4 erweitert mit mHC (Manifold-Constrained Hyper-Connections) den Residual-Pfad und reduziert mit CSA/HCA durch Kompression der Sequenzlänge FLOPs und KV-Cache bei 1M-Token-Kontexten im Vergleich zu V3.2 deutlich
Überblick: Moderne Architekturen mit Fokus auf Effizienz bei langen Kontexten
- Da Reasoning-Modelle und Agent-Workflows mehr Token über längere Zeit behalten, werden KV-Cache-Größe, Memory-Traffic und Attention-Kosten zu zentralen Engpässen
- Neue Designpunkte in wichtigen Open-Weight-Modellen, die im April und Mai vorgestellt wurden
- Gemma 4: KV sharing und Per-Layer Embeddings
- Laguna XS.2: layer-wise attention budgeting
- ZAYA1-8B: compressed convolutional attention
- DeepSeek V4: mHC + compressed attention
- Der Text behandelt keine Datenmischung, Trainingspläne, Post-Training, RL-Rezepte oder Benchmarks, sondern konzentriert sich auf interne Änderungen in Transformer-Blöcken, Residual-Streams, KV-Cache und Attention-Berechnung
1. Gemma 4: Kleinerer Cache durch layerübergreifendes KV-Sharing
- Die Anfang April von Google vorgestellte Gemma-4-Familie besteht aus drei Kategorien
- Gemma 4 E2B/E4B: kleine Modelle für Mobil- und Embedded-Geräte (IoT)
- Gemma 4 26B MoE: ein für effiziente lokale Inferenz optimiertes MoE-Modell
- Gemma 4 31B dense: ein Dense-Modell für höchste Qualität und komfortables Post-Training
-
Einführung von KV-Sharing (cross-layer attention)
- Spätere Layer berechnen nicht ihre eigenen K/V-Projektionen, sondern verwenden die KV-Tensoren des nächstgelegenen vorherigen nicht geteilten Layers mit demselben Attention-Typ wieder
- Sliding-Window-Layer teilen KV mit dem vorherigen Sliding-Window-Layer, Full-Attention-Layer mit dem vorherigen Full-Attention-Layer
- Die Query-Projektion wird von jedem Layer weiterhin selbst berechnet, sodass die layer-spezifischen Attention-Muster erhalten bleiben
- Bei Gemma 4 E2B berechnen von 35 Transformer-Layern nur die ersten 15 ihre eigenen KVs, die letzten 20 Layer nutzen Wiederverwendung
- Bei Gemma 4 E4B berechnen von 42 Layern nur 24 ihre eigenen KVs, die letzten 18 nutzen Wiederverwendung
-
Einsparungseffekt
- Rund die Hälfte der KVs wird geteilt, wodurch die KV-Cache-Größe um etwa die Hälfte sinkt
- Bei 128K langen Kontexten (bfloat16) spart E2B 2,7 GB, E4B etwa 6 GB
-
Grenzen
- KV-Sharing ist eine Form der Approximation und verringert die Modellkapazität
- Laut dem Paper zu cross-layer attention ist der Einfluss zumindest bei den getesteten kleineren Modellen minimal
- Das Konzept selbst basiert auf Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024), und Gemma 4 ist der erste bekannte Einsatz in einer weithin bekannten Architektur
2. Per-Layer Embeddings (PLE) und die „effektive“ Größe von Gemma 4 E2B/E4B
- PLE ist ein von KV-Sharing getrenntes Effizienzdesign mit Fokus auf Parametereffizienz
-
„E“ steht für effective
- Gemma 4 E2B: 2,3B effective parameters, mit Embeddings 5,1B
- Gemma 4 E4B: 4,5B effective parameters, mit Embeddings 8B
- Die Hauptberechnung des Transformer-Stacks liegt näher an den kleineren Zahlen, während die größeren Zahlen zusätzliche Embedding-Table-Layer einschließen
-
Aufbau von PLE
- PLE-Vektoren werden außerhalb der wiederholten Transformer-Blöcke vorbereitet
- Token-IDs durchlaufen einen Per-Layer-Embedding-Lookup, und die normalen Token-Embeddings werden linear in denselben PLE-Raum projiziert
- Beide Ergebnisse werden addiert, skaliert und reshaped, sodass ein Tensor mit einem layer-spezifischen Slice pro Layer entsteht
- Jeder Layer l erhält nur seinen eigenen Slice (
ple_l)
-
Verhalten innerhalb des Transformer-Blocks
- Attention- und Feedforward-Residual-Updates laufen wie gewohnt ab
- Nach dem zweiten Residual-Add gate't der Hidden State z den layer-spezifischen PLE-Vektor
- Der gegatete PLE-Vektor wird zurück auf die Hidden-Size des Modells projiziert, normalisiert und als zusätzliches Residual-Update addiert
-
Ziel von PLE
- Die teuren Transformer-Blöcke bleiben nahe der kleineren „effektiven“ Größe
- Zusätzliche Kapazität wird in Per-Layer-Embedding-Tabellen gespeichert und ist durch Lookup viel günstiger als zusätzliche Attention- oder FFN-Gewichte
- Anders als die einfache Alternative, ein Dense-Modell nur zu verkleinern, opfert dies nicht die Kapazität des Hauptrechenpfads
- PLE ist prinzipiell nicht auf kleine Modelle beschränkt, aber große Modelle haben bereits viel Kapazität und können sie zudem per MoE erweitern
3. Laguna XS.2: Layer-Wise Attention Budgeting
- Laguna ist das erste Open-Weight-Modell des auf Coding-LLMs fokussierten europäischen Unternehmens Poolside
-
Grundaufbau
- Insgesamt 40 Layer, davon 30 mit Sliding-Window-Attention und 10 mit globaler/full attention
- Fenstergröße der Sliding-Window-Layer: 512 Token
- Das Mischmuster aus Sliding Window + global wird auch in anderen Architekturen wie Gemma 4 verwendet
-
Das Neue: unterschiedliche Anzahl von Query-Heads je Layer
- Über die Einstellung
num_attention_heads_per_layerin der Hugging Faceconfig.jsonkann für jeden Layer eine andere Query-Head-Anzahl festgelegt werden, während die Form des KV-Caches kompatibel bleibt - Sliding-Window-Layer: 8 Query-Heads pro KV-Head
- Full-Attention-Layer: 6 Query-Heads pro KV-Head
- Die KV-Heads bleiben auf 8 fixiert
- Über die Einstellung
-
Designabsicht
- Statt jedem Layer dasselbe Attention-Budget zu geben, wird Attention-Kapazität dort konzentriert, wo sie nützlich ist
- Full-Attention-Layer betrachten den gesamten Kontext und sind daher teuer, weshalb ihnen weniger Query-Heads zugewiesen werden
- Die Idee, Kapazität je Layer unterschiedlich zu verteilen, reicht mindestens bis zu Apples OpenELM von 2024 zurück; Laguna XS.2 ist ein besonders markantes aktuelles Beispiel unter produktionsreifen Open-Modellen
- Zusätzlich verwendet Laguna auch per-head attention-output gating (ähnlich wie bei Qwen3-Next)
4. ZAYA1-8B: Compressed Convolutional Attention (CCA)
- Ein von Zyphra entwickeltes Open-Weight-Modell, bemerkenswert vor allem dadurch, dass es auf AMD-GPUs statt auf NVIDIA-GPUs oder Google-TPUs trainiert wurde
-
Struktur
- In der
config.jsongibt es 80 alternierende Layer-Einträge; CCA/GQA-Attention und MoE-Feedforward wechseln sich ab (visuell oft als 40 Attention+MoE-Paare dargestellt) - CCA wird zusammen mit einem 4:1-GQA-Layout eingesetzt
- Das MoE ist sehr stark sparse konfiguriert; pro Token ist nur 1 Routing-Expert aktiv
- In der
-
Kern von CCA
- Ähnlich wie MLA führt CCA eine komprimierte latente Repräsentation im Attention-Block ein
- Der Unterschied: MLA nutzt die latente Repräsentation primär zur Verkleinerung des KV-Caches und projiziert für die eigentliche Attention wieder in den Attention-Head-Raum zurück
- CCA komprimiert Q, K und V und führt die Attention-Berechnung direkt im komprimierten latenten Raum aus; der resultierende Attention-Vektor wird anschließend wieder hochprojiziert
- Dadurch werden nicht nur der KV-Cache, sondern auch die Attention-FLOPs beim Prefill und Training reduziert
-
Convolutional Mixing
- Das Wort „Convolutional“ im Namen bezieht sich darauf, dass zusätzliches convolutional mixing auf die komprimierten K- und Q-Repräsentationen angewendet wird
- Die Kompression macht Q, K und V schmaler und spart damit Rechenaufwand und Cache, kann aber die Ausdrucksstärke der Attention verringern
- Die Convolution ist ein günstiges Mittel, um den komprimierten Qs und Ks lokalen Kontext hinzuzufügen
- Auf V wird sie nicht angewendet — Q und K bestimmen die Attention-Scores, V ist der Inhalt, der anhand dieser Scores gemittelt wird
- Neben Sequence Mixing gibt es auch eine Channel-Mixing-Komponente
-
Leistung
- CCA wurde bereits vor dem technischen Bericht zu ZAYA1-8B in einem separaten Paper eingeführt: "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (Oktober 2025)
- Laut den Experimenten im CCA-Paper liefert CCA unter derselben Kompressionskonfiguration bessere Ergebnisse als MLA
5. DeepSeek V4: CSA/HCA, mHC und komprimierter Attention-Cache
-
DeepSeek V4 war in diesem Jahr eines der aufsehenerregendsten und größten Releases; DeepSeek V4-Pro ist gemessen am Anteil aktiver Parameter das am stärksten sparse MoE
-
Der Text konzentriert sich im Vergleich zu früheren Architekturen auf zwei zentrale Neuerungen
- mHC: ein breiterer Residual-Pfad
- CSA/HCA: Kompression und Sparsifizierung von Attention für lange Kontexte
-
5.1 Manifold-Constrained Hyper-Connections (mHC)
- Basierend auf dem Paper des DeepSeek-Teams vom 31. Dezember 2025, "mHC: Manifold-Constrained Hyper-Connections"; damals nur im Maßstab von 27B getestet, nun aber ernsthaft im aktuellen Flaggschiff eingesetzt
- Ziel ist die Modernisierung der Residual-Verbindungsstruktur innerhalb des Transformer-Blocks — im Unterschied zu Änderungen, die sich vor allem auf Attention, Normalisierung oder MoE konzentrieren
-
Hintergrund zu Hyper-Connections (HC)
- Basiert auf Zhu et al. (2024), "Hyper-connections"
- Ersetzt einen einzelnen Residual-Stream durch mehrere parallele Residual-Streams und gelernte Mappings
- Damit Attention- und MoE-Layer weiterhin mit der normalen Hidden-Size arbeiten können, kommen Pre Mapping (parallele Streams → ein Hidden Vector) und Post Mapping (Layer-Output → Verteilung auf parallele Streams) hinzu
- Dadurch wird der Residual-Pfad ausdrucksstärker, ohne Attention oder MoE selbst zu verbreitern
- In 7B-OLMo-MoE-Experimenten blieben die FLOPs pro Token mit 13,36G → 13,38G praktisch unverändert, während die Baseline-Leistung mit etwa der halben Zahl an Trainingstokens erreicht wurde
-
Änderungen von HC zu mHC
- Das Res-Mapping bei normalem HC ist eine lernbare Matrix, bei der Signalverstärkung oder -abschwächung über viele Schichten hinweg unvorhersehbar werden kann
- mHC projiziert das Residual-Mapping auf die Mannigfaltigkeit doubly stochastic matrices — alle Einträge sind nichtnegativ, und die Summen jeder Zeile und Spalte ergeben 1
- Dadurch wirkt das Residual-Mixing eher wie eine stabile Umverteilung von Information zwischen Streams
- Auch Pre Mapping und Post Mapping werden auf Nichtnegativität und Begrenztheit beschränkt, um eine Aufhebung beim Lesen und Schreiben des verbreiterten Residual-Zustands zu verhindern
- So wird Skalierungsstabilität gesichert, die bei tieferen Modellen immer wichtiger wird
-
Kosten
- In Experimenten mit dem 27B-Modell lag mit der optimierten Implementierung des DeepSeek-Teams (Fusion, Recomputation, Pipeline Scheduling) der Trainingszeit-Overhead bei 6,7 %, wenn n=4 Residual-Streams verwendet wurden
-
5.2 Komprimierte Attention mit CSA und HCA
- Ziel ist es, bei sehr langen Kontexten nicht nur die Berechnung der Attention-Scores, sondern auch das Problem zu lösen, dass der KV-Cache proportional zur Sequenzlänge wächst
- DeepSeek V4 nutzt dafür eine hybride Kombination aus zwei komprimierten Attention-Varianten: Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA)
-
Unterschied zu MLA
- MLA in DeepSeek V2/V3 komprimiert die KV-Repräsentation pro Token, behält aber pro Token einen latenten KV-Eintrag bei
- CSA/HCA komprimieren entlang der Sequenzdimension, indem mehrere Token-Gruppen zu weniger komprimierten KV-Einträgen zusammengefasst werden — der Cache selbst wird also kürzer
- Dafür wird ein Teil der tokenweisen Information aufgegeben, im Gegenzug sinken die Kosten für lange Kontexte stark
-
CSA vs. HCA
- CSA: schwächerer Kompressionsgrad (m=4) + DeepSeek Sparse Attention (DSA)-artige Top-k-Auswahl
- HCA: starker Kompressionsgrad (m'=128, 128 Token werden zu 1 komprimierten KV-Eintrag) + dense attention auf dem verkürzten Cache
- Beide Verfahren behalten zusätzlich einen Sliding-Window-Zweig mit 128 Token für die neuesten unkomprimierten Token bei
- CSA bewahrt mehr Details, nutzt dafür aber sparse Auswahl; HCA reduziert die Zahl der Einträge stark und ermöglicht dadurch dense attention — beide ergänzen sich, daher platziert DeepSeek V4 diese Layer abwechselnd
-
Effizienzergebnisse (1M-Token-Kontext, verglichen mit DeepSeek V3.2)
- DeepSeek V4-Pro: FLOPs für Single-Token-Inferenz 27 %, KV-Cache-Größe 10 %
- DeepSeek V4-Flash: FLOPs 10 %, KV-Cache-Größe 7 %
-
Hinweise zur Bewertung
- Es ist schwer, pauschal zu sagen, dass CSA/HCA allgemein „besser“ als MLA ist; es handelt sich um ein aggressiveres Design für lange Kontexte und zugleich um eine komplexere Lösung
- Im Paper fehlt eine Ablation Study
- DeepSeek V4-Flash-Base übertrifft V3.2-Base in vielen Base-Benchmarks und zeigte starke Ergebnisse bei 1M-Token-Retrieval, doch das ist das Resultat des gesamten Rezepts, einschließlich besserer Daten, Muon-basierter Optimierung, mHC, Präzisions- und Speicheroptimierungen sowie Änderungen an Trainings- und Inferenzsystemen
6. Fazit
- Das gemeinsame Muster der neuen Open-Weight-Modelle dieses Jahres ist, die Inferenzkosten für lange Kontexte zu senken, ohne die Gesamtzahl der Parameter zu reduzieren
- Gemma 4: kleinerer KV-Cache durch cross-layer KV sharing, zusätzliche Kapazität durch Per-Layer Embeddings
- Laguna XS.2: differenzierte Verteilung der Attention-Kapazität je Layer
- ZAYA1-8B: Verlagerung der Attention in einen komprimierten latenten Raum
- DeepSeek V4: eingeschränkte Mischung von Residual-Streams + komprimierte Long-Context-Attention
- Transformer-Blöcke verändern sich weiterhin, aber in klar zielgerichteter Weise, während das Grundgerüst der GPT-Decoder-only-Architektur erhalten bleibt
- Die qualitative Modellierungsleistung wird weiterhin vor allem von Datenqualität, Datenmenge und Trainingsrezept bestimmt
- Bislang bleibt der Transformer der Status quo für SOTA-Architekturen, auch wenn es Alternativen wie Diffusion-Modelle gibt
- Ein grundlegender Transformer-Block ließ sich früher in 50–100 Zeilen PyTorch implementieren, doch durch neuere Attention-Varianten und Ähnliches ist die Code-Komplexität etwa um den Faktor 10 gestiegen
- Diese steigende Komplexität ist nicht nur negativ, weil sie Laufzeitkosten senkt, macht aber ein klares Verständnis einzelner Komponenten und ihrer Wechselwirkungen zunehmend schwieriger
- Empfehlenswerter Lernansatz: mit ursprünglichen Decoder-Style-LLMs (GPT/GPT-2) beginnen und neue Komponenten dann schrittweise hinzufügen
Noch keine Kommentare.