Aktuelle Entwicklungen in der LLM-Architektur: KV-Sharing, mHC und komprimierte Attention

(magazine.sebastianraschka.com)

19 Punkte von GN⁺ 2026-05-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Da sich kürzlich veröffentlichte Open-Weight-LLMs auf Effizienz bei langen Kontexten konzentrieren, nimmt die Zahl der Architekturtricks zur Reduzierung von KV-Cache-Größe, Memory-Traffic und Attention-Kosten schnell zu
Gemma 4 verbessert mit layerübergreifendem KV-Sharing (cross-layer attention) und Per-Layer Embeddings (PLE) zugleich die Effizienz von KV-Cache und Parametern
Laguna XS.2 führt mit layer-wise attention budgeting eine unterschiedliche Zuweisung der Query-Head-Anzahl je Layer ein
ZAYA1-8B führt mit Compressed Convolutional Attention (CCA) Attention-Berechnungen direkt im komprimierten latenten Raum aus und senkt damit nicht nur den KV-Cache, sondern auch die Attention-FLOPs
DeepSeek V4 erweitert mit mHC (Manifold-Constrained Hyper-Connections) den Residual-Pfad und reduziert mit CSA/HCA durch Kompression der Sequenzlänge FLOPs und KV-Cache bei 1M-Token-Kontexten im Vergleich zu V3.2 deutlich

Überblick: Moderne Architekturen mit Fokus auf Effizienz bei langen Kontexten

Da Reasoning-Modelle und Agent-Workflows mehr Token über längere Zeit behalten, werden KV-Cache-Größe, Memory-Traffic und Attention-Kosten zu zentralen Engpässen
Neue Designpunkte in wichtigen Open-Weight-Modellen, die im April und Mai vorgestellt wurden
- Gemma 4: KV sharing und Per-Layer Embeddings
- Laguna XS.2: layer-wise attention budgeting
- ZAYA1-8B: compressed convolutional attention
- DeepSeek V4: mHC + compressed attention
Der Text behandelt keine Datenmischung, Trainingspläne, Post-Training, RL-Rezepte oder Benchmarks, sondern konzentriert sich auf interne Änderungen in Transformer-Blöcken, Residual-Streams, KV-Cache und Attention-Berechnung

1. Gemma 4: Kleinerer Cache durch layerübergreifendes KV-Sharing

Die Anfang April von Google vorgestellte Gemma-4-Familie besteht aus drei Kategorien
- Gemma 4 E2B/E4B: kleine Modelle für Mobil- und Embedded-Geräte (IoT)
- Gemma 4 26B MoE: ein für effiziente lokale Inferenz optimiertes MoE-Modell
- Gemma 4 31B dense: ein Dense-Modell für höchste Qualität und komfortables Post-Training
Einführung von KV-Sharing (cross-layer attention)
- Spätere Layer berechnen nicht ihre eigenen K/V-Projektionen, sondern verwenden die KV-Tensoren des nächstgelegenen vorherigen nicht geteilten Layers mit demselben Attention-Typ wieder
- Sliding-Window-Layer teilen KV mit dem vorherigen Sliding-Window-Layer, Full-Attention-Layer mit dem vorherigen Full-Attention-Layer
- Die Query-Projektion wird von jedem Layer weiterhin selbst berechnet, sodass die layer-spezifischen Attention-Muster erhalten bleiben
- Bei Gemma 4 E2B berechnen von 35 Transformer-Layern nur die ersten 15 ihre eigenen KVs, die letzten 20 Layer nutzen Wiederverwendung
- Bei Gemma 4 E4B berechnen von 42 Layern nur 24 ihre eigenen KVs, die letzten 18 nutzen Wiederverwendung
Einsparungseffekt
- Rund die Hälfte der KVs wird geteilt, wodurch die KV-Cache-Größe um etwa die Hälfte sinkt
- Bei 128K langen Kontexten (bfloat16) spart E2B 2,7 GB, E4B etwa 6 GB
Grenzen
- KV-Sharing ist eine Form der Approximation und verringert die Modellkapazität
- Laut dem Paper zu cross-layer attention ist der Einfluss zumindest bei den getesteten kleineren Modellen minimal
Das Konzept selbst basiert auf Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024), und Gemma 4 ist der erste bekannte Einsatz in einer weithin bekannten Architektur

2. Per-Layer Embeddings (PLE) und die „effektive“ Größe von Gemma 4 E2B/E4B

PLE ist ein von KV-Sharing getrenntes Effizienzdesign mit Fokus auf Parametereffizienz
„E“ steht für effective
- Gemma 4 E2B: 2,3B effective parameters, mit Embeddings 5,1B
- Gemma 4 E4B: 4,5B effective parameters, mit Embeddings 8B
- Die Hauptberechnung des Transformer-Stacks liegt näher an den kleineren Zahlen, während die größeren Zahlen zusätzliche Embedding-Table-Layer einschließen
Aufbau von PLE
- PLE-Vektoren werden außerhalb der wiederholten Transformer-Blöcke vorbereitet
- Token-IDs durchlaufen einen Per-Layer-Embedding-Lookup, und die normalen Token-Embeddings werden linear in denselben PLE-Raum projiziert
- Beide Ergebnisse werden addiert, skaliert und reshaped, sodass ein Tensor mit einem layer-spezifischen Slice pro Layer entsteht
- Jeder Layer l erhält nur seinen eigenen Slice (ple_l)
Verhalten innerhalb des Transformer-Blocks
- Attention- und Feedforward-Residual-Updates laufen wie gewohnt ab
- Nach dem zweiten Residual-Add gate't der Hidden State z den layer-spezifischen PLE-Vektor
- Der gegatete PLE-Vektor wird zurück auf die Hidden-Size des Modells projiziert, normalisiert und als zusätzliches Residual-Update addiert
Ziel von PLE
- Die teuren Transformer-Blöcke bleiben nahe der kleineren „effektiven“ Größe
- Zusätzliche Kapazität wird in Per-Layer-Embedding-Tabellen gespeichert und ist durch Lookup viel günstiger als zusätzliche Attention- oder FFN-Gewichte
- Anders als die einfache Alternative, ein Dense-Modell nur zu verkleinern, opfert dies nicht die Kapazität des Hauptrechenpfads
PLE ist prinzipiell nicht auf kleine Modelle beschränkt, aber große Modelle haben bereits viel Kapazität und können sie zudem per MoE erweitern

3. Laguna XS.2: Layer-Wise Attention Budgeting

Laguna ist das erste Open-Weight-Modell des auf Coding-LLMs fokussierten europäischen Unternehmens Poolside
Grundaufbau
- Insgesamt 40 Layer, davon 30 mit Sliding-Window-Attention und 10 mit globaler/full attention
- Fenstergröße der Sliding-Window-Layer: 512 Token
- Das Mischmuster aus Sliding Window + global wird auch in anderen Architekturen wie Gemma 4 verwendet
Das Neue: unterschiedliche Anzahl von Query-Heads je Layer
- Über die Einstellung num_attention_heads_per_layer in der Hugging Face config.json kann für jeden Layer eine andere Query-Head-Anzahl festgelegt werden, während die Form des KV-Caches kompatibel bleibt
- Sliding-Window-Layer: 8 Query-Heads pro KV-Head
- Full-Attention-Layer: 6 Query-Heads pro KV-Head
- Die KV-Heads bleiben auf 8 fixiert
Designabsicht
- Statt jedem Layer dasselbe Attention-Budget zu geben, wird Attention-Kapazität dort konzentriert, wo sie nützlich ist
- Full-Attention-Layer betrachten den gesamten Kontext und sind daher teuer, weshalb ihnen weniger Query-Heads zugewiesen werden
Die Idee, Kapazität je Layer unterschiedlich zu verteilen, reicht mindestens bis zu Apples OpenELM von 2024 zurück; Laguna XS.2 ist ein besonders markantes aktuelles Beispiel unter produktionsreifen Open-Modellen
Zusätzlich verwendet Laguna auch per-head attention-output gating (ähnlich wie bei Qwen3-Next)

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

Ein von Zyphra entwickeltes Open-Weight-Modell, bemerkenswert vor allem dadurch, dass es auf AMD-GPUs statt auf NVIDIA-GPUs oder Google-TPUs trainiert wurde
Struktur
- In der config.json gibt es 80 alternierende Layer-Einträge; CCA/GQA-Attention und MoE-Feedforward wechseln sich ab (visuell oft als 40 Attention+MoE-Paare dargestellt)
- CCA wird zusammen mit einem 4:1-GQA-Layout eingesetzt
- Das MoE ist sehr stark sparse konfiguriert; pro Token ist nur 1 Routing-Expert aktiv
Kern von CCA
- Ähnlich wie MLA führt CCA eine komprimierte latente Repräsentation im Attention-Block ein
- Der Unterschied: MLA nutzt die latente Repräsentation primär zur Verkleinerung des KV-Caches und projiziert für die eigentliche Attention wieder in den Attention-Head-Raum zurück
- CCA komprimiert Q, K und V und führt die Attention-Berechnung direkt im komprimierten latenten Raum aus; der resultierende Attention-Vektor wird anschließend wieder hochprojiziert
- Dadurch werden nicht nur der KV-Cache, sondern auch die Attention-FLOPs beim Prefill und Training reduziert
Convolutional Mixing
- Das Wort „Convolutional“ im Namen bezieht sich darauf, dass zusätzliches convolutional mixing auf die komprimierten K- und Q-Repräsentationen angewendet wird
- Die Kompression macht Q, K und V schmaler und spart damit Rechenaufwand und Cache, kann aber die Ausdrucksstärke der Attention verringern
- Die Convolution ist ein günstiges Mittel, um den komprimierten Qs und Ks lokalen Kontext hinzuzufügen
- Auf V wird sie nicht angewendet — Q und K bestimmen die Attention-Scores, V ist der Inhalt, der anhand dieser Scores gemittelt wird
- Neben Sequence Mixing gibt es auch eine Channel-Mixing-Komponente
Leistung
- CCA wurde bereits vor dem technischen Bericht zu ZAYA1-8B in einem separaten Paper eingeführt: "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (Oktober 2025)
- Laut den Experimenten im CCA-Paper liefert CCA unter derselben Kompressionskonfiguration bessere Ergebnisse als MLA

5. DeepSeek V4: CSA/HCA, mHC und komprimierter Attention-Cache

DeepSeek V4 war in diesem Jahr eines der aufsehenerregendsten und größten Releases; DeepSeek V4-Pro ist gemessen am Anteil aktiver Parameter das am stärksten sparse MoE
Der Text konzentriert sich im Vergleich zu früheren Architekturen auf zwei zentrale Neuerungen
- mHC: ein breiterer Residual-Pfad
- CSA/HCA: Kompression und Sparsifizierung von Attention für lange Kontexte
5.1 Manifold-Constrained Hyper-Connections (mHC)
- Basierend auf dem Paper des DeepSeek-Teams vom 31. Dezember 2025, "mHC: Manifold-Constrained Hyper-Connections"; damals nur im Maßstab von 27B getestet, nun aber ernsthaft im aktuellen Flaggschiff eingesetzt
- Ziel ist die Modernisierung der Residual-Verbindungsstruktur innerhalb des Transformer-Blocks — im Unterschied zu Änderungen, die sich vor allem auf Attention, Normalisierung oder MoE konzentrieren
- Hintergrund zu Hyper-Connections (HC)
  - Basiert auf Zhu et al. (2024), "Hyper-connections"
  - Ersetzt einen einzelnen Residual-Stream durch mehrere parallele Residual-Streams und gelernte Mappings
  - Damit Attention- und MoE-Layer weiterhin mit der normalen Hidden-Size arbeiten können, kommen Pre Mapping (parallele Streams → ein Hidden Vector) und Post Mapping (Layer-Output → Verteilung auf parallele Streams) hinzu
  - Dadurch wird der Residual-Pfad ausdrucksstärker, ohne Attention oder MoE selbst zu verbreitern
  - In 7B-OLMo-MoE-Experimenten blieben die FLOPs pro Token mit 13,36G → 13,38G praktisch unverändert, während die Baseline-Leistung mit etwa der halben Zahl an Trainingstokens erreicht wurde
- Änderungen von HC zu mHC
  - Das Res-Mapping bei normalem HC ist eine lernbare Matrix, bei der Signalverstärkung oder -abschwächung über viele Schichten hinweg unvorhersehbar werden kann
  - mHC projiziert das Residual-Mapping auf die Mannigfaltigkeit doubly stochastic matrices — alle Einträge sind nichtnegativ, und die Summen jeder Zeile und Spalte ergeben 1
  - Dadurch wirkt das Residual-Mixing eher wie eine stabile Umverteilung von Information zwischen Streams
  - Auch Pre Mapping und Post Mapping werden auf Nichtnegativität und Begrenztheit beschränkt, um eine Aufhebung beim Lesen und Schreiben des verbreiterten Residual-Zustands zu verhindern
  - So wird Skalierungsstabilität gesichert, die bei tieferen Modellen immer wichtiger wird
- Kosten
  - In Experimenten mit dem 27B-Modell lag mit der optimierten Implementierung des DeepSeek-Teams (Fusion, Recomputation, Pipeline Scheduling) der Trainingszeit-Overhead bei 6,7 %, wenn n=4 Residual-Streams verwendet wurden
5.2 Komprimierte Attention mit CSA und HCA
- Ziel ist es, bei sehr langen Kontexten nicht nur die Berechnung der Attention-Scores, sondern auch das Problem zu lösen, dass der KV-Cache proportional zur Sequenzlänge wächst
- DeepSeek V4 nutzt dafür eine hybride Kombination aus zwei komprimierten Attention-Varianten: Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA)
- Unterschied zu MLA
  - MLA in DeepSeek V2/V3 komprimiert die KV-Repräsentation pro Token, behält aber pro Token einen latenten KV-Eintrag bei
  - CSA/HCA komprimieren entlang der Sequenzdimension, indem mehrere Token-Gruppen zu weniger komprimierten KV-Einträgen zusammengefasst werden — der Cache selbst wird also kürzer
  - Dafür wird ein Teil der tokenweisen Information aufgegeben, im Gegenzug sinken die Kosten für lange Kontexte stark
- CSA vs. HCA
  - CSA: schwächerer Kompressionsgrad (m=4) + DeepSeek Sparse Attention (DSA)-artige Top-k-Auswahl
  - HCA: starker Kompressionsgrad (m'=128, 128 Token werden zu 1 komprimierten KV-Eintrag) + dense attention auf dem verkürzten Cache
  - Beide Verfahren behalten zusätzlich einen Sliding-Window-Zweig mit 128 Token für die neuesten unkomprimierten Token bei
  - CSA bewahrt mehr Details, nutzt dafür aber sparse Auswahl; HCA reduziert die Zahl der Einträge stark und ermöglicht dadurch dense attention — beide ergänzen sich, daher platziert DeepSeek V4 diese Layer abwechselnd
- Effizienzergebnisse (1M-Token-Kontext, verglichen mit DeepSeek V3.2)
  - DeepSeek V4-Pro: FLOPs für Single-Token-Inferenz 27 %, KV-Cache-Größe 10 %
  - DeepSeek V4-Flash: FLOPs 10 %, KV-Cache-Größe 7 %
- Hinweise zur Bewertung
  - Es ist schwer, pauschal zu sagen, dass CSA/HCA allgemein „besser“ als MLA ist; es handelt sich um ein aggressiveres Design für lange Kontexte und zugleich um eine komplexere Lösung
  - Im Paper fehlt eine Ablation Study
  - DeepSeek V4-Flash-Base übertrifft V3.2-Base in vielen Base-Benchmarks und zeigte starke Ergebnisse bei 1M-Token-Retrieval, doch das ist das Resultat des gesamten Rezepts, einschließlich besserer Daten, Muon-basierter Optimierung, mHC, Präzisions- und Speicheroptimierungen sowie Änderungen an Trainings- und Inferenzsystemen

6. Fazit

Das gemeinsame Muster der neuen Open-Weight-Modelle dieses Jahres ist, die Inferenzkosten für lange Kontexte zu senken, ohne die Gesamtzahl der Parameter zu reduzieren
- Gemma 4: kleinerer KV-Cache durch cross-layer KV sharing, zusätzliche Kapazität durch Per-Layer Embeddings
- Laguna XS.2: differenzierte Verteilung der Attention-Kapazität je Layer
- ZAYA1-8B: Verlagerung der Attention in einen komprimierten latenten Raum
- DeepSeek V4: eingeschränkte Mischung von Residual-Streams + komprimierte Long-Context-Attention
Transformer-Blöcke verändern sich weiterhin, aber in klar zielgerichteter Weise, während das Grundgerüst der GPT-Decoder-only-Architektur erhalten bleibt
Die qualitative Modellierungsleistung wird weiterhin vor allem von Datenqualität, Datenmenge und Trainingsrezept bestimmt
Bislang bleibt der Transformer der Status quo für SOTA-Architekturen, auch wenn es Alternativen wie Diffusion-Modelle gibt
Ein grundlegender Transformer-Block ließ sich früher in 50–100 Zeilen PyTorch implementieren, doch durch neuere Attention-Varianten und Ähnliches ist die Code-Komplexität etwa um den Faktor 10 gestiegen
Diese steigende Komplexität ist nicht nur negativ, weil sie Laufzeitkosten senkt, macht aber ein klares Verständnis einzelner Komponenten und ihrer Wechselwirkungen zunehmend schwieriger
Empfehlenswerter Lernansatz: mit ursprünglichen Decoder-Style-LLMs (GPT/GPT-2) beginnen und neue Komponenten dann schrittweise hinzufügen

Aktuelle Entwicklungen in der LLM-Architektur: KV-Sharing, mHC und komprimierte Attention

Überblick: Moderne Architekturen mit Fokus auf Effizienz bei langen Kontexten

1. Gemma 4: Kleinerer Cache durch layerübergreifendes KV-Sharing

Einführung von KV-Sharing (cross-layer attention)

Einsparungseffekt

Grenzen

2. Per-Layer Embeddings (PLE) und die „effektive“ Größe von Gemma 4 E2B/E4B

„E“ steht für effective

Aufbau von PLE

Verhalten innerhalb des Transformer-Blocks

Ziel von PLE

3. Laguna XS.2: Layer-Wise Attention Budgeting

Grundaufbau

Das Neue: unterschiedliche Anzahl von Query-Heads je Layer

Designabsicht

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

Struktur

Kern von CCA

Convolutional Mixing

Leistung

5. DeepSeek V4: CSA/HCA, mHC und komprimierter Attention-Cache

5.1 Manifold-Constrained Hyper-Connections (mHC)

Hintergrund zu Hyper-Connections (HC)

Änderungen von HC zu mHC

Kosten

5.2 Komprimierte Attention mit CSA und HCA

Unterschied zu MLA

CSA vs. HCA

Effizienzergebnisse (1M-Token-Kontext, verglichen mit DeepSeek V3.2)

Hinweise zur Bewertung

6. Fazit

Verwandte Beiträge

Noch keine Kommentare.