6 Punkte von GN⁺ 5 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Da sich kürzlich veröffentlichte Open-Weight-LLMs auf Effizienz bei langen Kontexten konzentrieren, nimmt die Zahl der Architekturtricks zur Reduzierung von KV-Cache-Größe, Memory-Traffic und Attention-Kosten schnell zu
  • Gemma 4 verbessert mit layerübergreifendem KV-Sharing (cross-layer attention) und Per-Layer Embeddings (PLE) zugleich die Effizienz von KV-Cache und Parametern
  • Laguna XS.2 führt mit layer-wise attention budgeting eine unterschiedliche Zuweisung der Query-Head-Anzahl je Layer ein
  • ZAYA1-8B führt mit Compressed Convolutional Attention (CCA) Attention-Berechnungen direkt im komprimierten latenten Raum aus und senkt damit nicht nur den KV-Cache, sondern auch die Attention-FLOPs
  • DeepSeek V4 erweitert mit mHC (Manifold-Constrained Hyper-Connections) den Residual-Pfad und reduziert mit CSA/HCA durch Kompression der Sequenzlänge FLOPs und KV-Cache bei 1M-Token-Kontexten im Vergleich zu V3.2 deutlich

Überblick: Moderne Architekturen mit Fokus auf Effizienz bei langen Kontexten

  • Da Reasoning-Modelle und Agent-Workflows mehr Token über längere Zeit behalten, werden KV-Cache-Größe, Memory-Traffic und Attention-Kosten zu zentralen Engpässen
  • Neue Designpunkte in wichtigen Open-Weight-Modellen, die im April und Mai vorgestellt wurden
    • Gemma 4: KV sharing und Per-Layer Embeddings
    • Laguna XS.2: layer-wise attention budgeting
    • ZAYA1-8B: compressed convolutional attention
    • DeepSeek V4: mHC + compressed attention
  • Der Text behandelt keine Datenmischung, Trainingspläne, Post-Training, RL-Rezepte oder Benchmarks, sondern konzentriert sich auf interne Änderungen in Transformer-Blöcken, Residual-Streams, KV-Cache und Attention-Berechnung

1. Gemma 4: Kleinerer Cache durch layerübergreifendes KV-Sharing

  • Die Anfang April von Google vorgestellte Gemma-4-Familie besteht aus drei Kategorien
    • Gemma 4 E2B/E4B: kleine Modelle für Mobil- und Embedded-Geräte (IoT)
    • Gemma 4 26B MoE: ein für effiziente lokale Inferenz optimiertes MoE-Modell
    • Gemma 4 31B dense: ein Dense-Modell für höchste Qualität und komfortables Post-Training
  • Einführung von KV-Sharing (cross-layer attention)

    • Spätere Layer berechnen nicht ihre eigenen K/V-Projektionen, sondern verwenden die KV-Tensoren des nächstgelegenen vorherigen nicht geteilten Layers mit demselben Attention-Typ wieder
    • Sliding-Window-Layer teilen KV mit dem vorherigen Sliding-Window-Layer, Full-Attention-Layer mit dem vorherigen Full-Attention-Layer
    • Die Query-Projektion wird von jedem Layer weiterhin selbst berechnet, sodass die layer-spezifischen Attention-Muster erhalten bleiben
    • Bei Gemma 4 E2B berechnen von 35 Transformer-Layern nur die ersten 15 ihre eigenen KVs, die letzten 20 Layer nutzen Wiederverwendung
    • Bei Gemma 4 E4B berechnen von 42 Layern nur 24 ihre eigenen KVs, die letzten 18 nutzen Wiederverwendung
  • Einsparungseffekt

    • Rund die Hälfte der KVs wird geteilt, wodurch die KV-Cache-Größe um etwa die Hälfte sinkt
    • Bei 128K langen Kontexten (bfloat16) spart E2B 2,7 GB, E4B etwa 6 GB
  • Grenzen

    • KV-Sharing ist eine Form der Approximation und verringert die Modellkapazität
    • Laut dem Paper zu cross-layer attention ist der Einfluss zumindest bei den getesteten kleineren Modellen minimal
  • Das Konzept selbst basiert auf Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024), und Gemma 4 ist der erste bekannte Einsatz in einer weithin bekannten Architektur

2. Per-Layer Embeddings (PLE) und die „effektive“ Größe von Gemma 4 E2B/E4B

  • PLE ist ein von KV-Sharing getrenntes Effizienzdesign mit Fokus auf Parametereffizienz
  • „E“ steht für effective

    • Gemma 4 E2B: 2,3B effective parameters, mit Embeddings 5,1B
    • Gemma 4 E4B: 4,5B effective parameters, mit Embeddings 8B
    • Die Hauptberechnung des Transformer-Stacks liegt näher an den kleineren Zahlen, während die größeren Zahlen zusätzliche Embedding-Table-Layer einschließen
  • Aufbau von PLE

    • PLE-Vektoren werden außerhalb der wiederholten Transformer-Blöcke vorbereitet
    • Token-IDs durchlaufen einen Per-Layer-Embedding-Lookup, und die normalen Token-Embeddings werden linear in denselben PLE-Raum projiziert
    • Beide Ergebnisse werden addiert, skaliert und reshaped, sodass ein Tensor mit einem layer-spezifischen Slice pro Layer entsteht
    • Jeder Layer l erhält nur seinen eigenen Slice (ple_l)
  • Verhalten innerhalb des Transformer-Blocks

    • Attention- und Feedforward-Residual-Updates laufen wie gewohnt ab
    • Nach dem zweiten Residual-Add gate't der Hidden State z den layer-spezifischen PLE-Vektor
    • Der gegatete PLE-Vektor wird zurück auf die Hidden-Size des Modells projiziert, normalisiert und als zusätzliches Residual-Update addiert
  • Ziel von PLE

    • Die teuren Transformer-Blöcke bleiben nahe der kleineren „effektiven“ Größe
    • Zusätzliche Kapazität wird in Per-Layer-Embedding-Tabellen gespeichert und ist durch Lookup viel günstiger als zusätzliche Attention- oder FFN-Gewichte
    • Anders als die einfache Alternative, ein Dense-Modell nur zu verkleinern, opfert dies nicht die Kapazität des Hauptrechenpfads
  • PLE ist prinzipiell nicht auf kleine Modelle beschränkt, aber große Modelle haben bereits viel Kapazität und können sie zudem per MoE erweitern

3. Laguna XS.2: Layer-Wise Attention Budgeting

  • Laguna ist das erste Open-Weight-Modell des auf Coding-LLMs fokussierten europäischen Unternehmens Poolside
  • Grundaufbau

    • Insgesamt 40 Layer, davon 30 mit Sliding-Window-Attention und 10 mit globaler/full attention
    • Fenstergröße der Sliding-Window-Layer: 512 Token
    • Das Mischmuster aus Sliding Window + global wird auch in anderen Architekturen wie Gemma 4 verwendet
  • Das Neue: unterschiedliche Anzahl von Query-Heads je Layer

    • Über die Einstellung num_attention_heads_per_layer in der Hugging Face config.json kann für jeden Layer eine andere Query-Head-Anzahl festgelegt werden, während die Form des KV-Caches kompatibel bleibt
    • Sliding-Window-Layer: 8 Query-Heads pro KV-Head
    • Full-Attention-Layer: 6 Query-Heads pro KV-Head
    • Die KV-Heads bleiben auf 8 fixiert
  • Designabsicht

    • Statt jedem Layer dasselbe Attention-Budget zu geben, wird Attention-Kapazität dort konzentriert, wo sie nützlich ist
    • Full-Attention-Layer betrachten den gesamten Kontext und sind daher teuer, weshalb ihnen weniger Query-Heads zugewiesen werden
  • Die Idee, Kapazität je Layer unterschiedlich zu verteilen, reicht mindestens bis zu Apples OpenELM von 2024 zurück; Laguna XS.2 ist ein besonders markantes aktuelles Beispiel unter produktionsreifen Open-Modellen
  • Zusätzlich verwendet Laguna auch per-head attention-output gating (ähnlich wie bei Qwen3-Next)

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

  • Ein von Zyphra entwickeltes Open-Weight-Modell, bemerkenswert vor allem dadurch, dass es auf AMD-GPUs statt auf NVIDIA-GPUs oder Google-TPUs trainiert wurde
  • Struktur

    • In der config.json gibt es 80 alternierende Layer-Einträge; CCA/GQA-Attention und MoE-Feedforward wechseln sich ab (visuell oft als 40 Attention+MoE-Paare dargestellt)
    • CCA wird zusammen mit einem 4:1-GQA-Layout eingesetzt
    • Das MoE ist sehr stark sparse konfiguriert; pro Token ist nur 1 Routing-Expert aktiv
  • Kern von CCA

    • Ähnlich wie MLA führt CCA eine komprimierte latente Repräsentation im Attention-Block ein
    • Der Unterschied: MLA nutzt die latente Repräsentation primär zur Verkleinerung des KV-Caches und projiziert für die eigentliche Attention wieder in den Attention-Head-Raum zurück
    • CCA komprimiert Q, K und V und führt die Attention-Berechnung direkt im komprimierten latenten Raum aus; der resultierende Attention-Vektor wird anschließend wieder hochprojiziert
    • Dadurch werden nicht nur der KV-Cache, sondern auch die Attention-FLOPs beim Prefill und Training reduziert
  • Convolutional Mixing

    • Das Wort „Convolutional“ im Namen bezieht sich darauf, dass zusätzliches convolutional mixing auf die komprimierten K- und Q-Repräsentationen angewendet wird
    • Die Kompression macht Q, K und V schmaler und spart damit Rechenaufwand und Cache, kann aber die Ausdrucksstärke der Attention verringern
    • Die Convolution ist ein günstiges Mittel, um den komprimierten Qs und Ks lokalen Kontext hinzuzufügen
    • Auf V wird sie nicht angewendet — Q und K bestimmen die Attention-Scores, V ist der Inhalt, der anhand dieser Scores gemittelt wird
    • Neben Sequence Mixing gibt es auch eine Channel-Mixing-Komponente
  • Leistung

    • CCA wurde bereits vor dem technischen Bericht zu ZAYA1-8B in einem separaten Paper eingeführt: "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (Oktober 2025)
    • Laut den Experimenten im CCA-Paper liefert CCA unter derselben Kompressionskonfiguration bessere Ergebnisse als MLA

5. DeepSeek V4: CSA/HCA, mHC und komprimierter Attention-Cache

  • DeepSeek V4 war in diesem Jahr eines der aufsehenerregendsten und größten Releases; DeepSeek V4-Pro ist gemessen am Anteil aktiver Parameter das am stärksten sparse MoE

  • Der Text konzentriert sich im Vergleich zu früheren Architekturen auf zwei zentrale Neuerungen

    • mHC: ein breiterer Residual-Pfad
    • CSA/HCA: Kompression und Sparsifizierung von Attention für lange Kontexte
  • 5.1 Manifold-Constrained Hyper-Connections (mHC)

    • Basierend auf dem Paper des DeepSeek-Teams vom 31. Dezember 2025, "mHC: Manifold-Constrained Hyper-Connections"; damals nur im Maßstab von 27B getestet, nun aber ernsthaft im aktuellen Flaggschiff eingesetzt
    • Ziel ist die Modernisierung der Residual-Verbindungsstruktur innerhalb des Transformer-Blocks — im Unterschied zu Änderungen, die sich vor allem auf Attention, Normalisierung oder MoE konzentrieren
    • Hintergrund zu Hyper-Connections (HC)

      • Basiert auf Zhu et al. (2024), "Hyper-connections"
      • Ersetzt einen einzelnen Residual-Stream durch mehrere parallele Residual-Streams und gelernte Mappings
      • Damit Attention- und MoE-Layer weiterhin mit der normalen Hidden-Size arbeiten können, kommen Pre Mapping (parallele Streams → ein Hidden Vector) und Post Mapping (Layer-Output → Verteilung auf parallele Streams) hinzu
      • Dadurch wird der Residual-Pfad ausdrucksstärker, ohne Attention oder MoE selbst zu verbreitern
      • In 7B-OLMo-MoE-Experimenten blieben die FLOPs pro Token mit 13,36G → 13,38G praktisch unverändert, während die Baseline-Leistung mit etwa der halben Zahl an Trainingstokens erreicht wurde
    • Änderungen von HC zu mHC

      • Das Res-Mapping bei normalem HC ist eine lernbare Matrix, bei der Signalverstärkung oder -abschwächung über viele Schichten hinweg unvorhersehbar werden kann
      • mHC projiziert das Residual-Mapping auf die Mannigfaltigkeit doubly stochastic matrices — alle Einträge sind nichtnegativ, und die Summen jeder Zeile und Spalte ergeben 1
      • Dadurch wirkt das Residual-Mixing eher wie eine stabile Umverteilung von Information zwischen Streams
      • Auch Pre Mapping und Post Mapping werden auf Nichtnegativität und Begrenztheit beschränkt, um eine Aufhebung beim Lesen und Schreiben des verbreiterten Residual-Zustands zu verhindern
      • So wird Skalierungsstabilität gesichert, die bei tieferen Modellen immer wichtiger wird
    • Kosten

      • In Experimenten mit dem 27B-Modell lag mit der optimierten Implementierung des DeepSeek-Teams (Fusion, Recomputation, Pipeline Scheduling) der Trainingszeit-Overhead bei 6,7 %, wenn n=4 Residual-Streams verwendet wurden
  • 5.2 Komprimierte Attention mit CSA und HCA

    • Ziel ist es, bei sehr langen Kontexten nicht nur die Berechnung der Attention-Scores, sondern auch das Problem zu lösen, dass der KV-Cache proportional zur Sequenzlänge wächst
    • DeepSeek V4 nutzt dafür eine hybride Kombination aus zwei komprimierten Attention-Varianten: Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA)
    • Unterschied zu MLA

      • MLA in DeepSeek V2/V3 komprimiert die KV-Repräsentation pro Token, behält aber pro Token einen latenten KV-Eintrag bei
      • CSA/HCA komprimieren entlang der Sequenzdimension, indem mehrere Token-Gruppen zu weniger komprimierten KV-Einträgen zusammengefasst werden — der Cache selbst wird also kürzer
      • Dafür wird ein Teil der tokenweisen Information aufgegeben, im Gegenzug sinken die Kosten für lange Kontexte stark
    • CSA vs. HCA

      • CSA: schwächerer Kompressionsgrad (m=4) + DeepSeek Sparse Attention (DSA)-artige Top-k-Auswahl
      • HCA: starker Kompressionsgrad (m'=128, 128 Token werden zu 1 komprimierten KV-Eintrag) + dense attention auf dem verkürzten Cache
      • Beide Verfahren behalten zusätzlich einen Sliding-Window-Zweig mit 128 Token für die neuesten unkomprimierten Token bei
      • CSA bewahrt mehr Details, nutzt dafür aber sparse Auswahl; HCA reduziert die Zahl der Einträge stark und ermöglicht dadurch dense attention — beide ergänzen sich, daher platziert DeepSeek V4 diese Layer abwechselnd
    • Effizienzergebnisse (1M-Token-Kontext, verglichen mit DeepSeek V3.2)

      • DeepSeek V4-Pro: FLOPs für Single-Token-Inferenz 27 %, KV-Cache-Größe 10 %
      • DeepSeek V4-Flash: FLOPs 10 %, KV-Cache-Größe 7 %
    • Hinweise zur Bewertung

      • Es ist schwer, pauschal zu sagen, dass CSA/HCA allgemein „besser“ als MLA ist; es handelt sich um ein aggressiveres Design für lange Kontexte und zugleich um eine komplexere Lösung
      • Im Paper fehlt eine Ablation Study
      • DeepSeek V4-Flash-Base übertrifft V3.2-Base in vielen Base-Benchmarks und zeigte starke Ergebnisse bei 1M-Token-Retrieval, doch das ist das Resultat des gesamten Rezepts, einschließlich besserer Daten, Muon-basierter Optimierung, mHC, Präzisions- und Speicheroptimierungen sowie Änderungen an Trainings- und Inferenzsystemen

6. Fazit

  • Das gemeinsame Muster der neuen Open-Weight-Modelle dieses Jahres ist, die Inferenzkosten für lange Kontexte zu senken, ohne die Gesamtzahl der Parameter zu reduzieren
    • Gemma 4: kleinerer KV-Cache durch cross-layer KV sharing, zusätzliche Kapazität durch Per-Layer Embeddings
    • Laguna XS.2: differenzierte Verteilung der Attention-Kapazität je Layer
    • ZAYA1-8B: Verlagerung der Attention in einen komprimierten latenten Raum
    • DeepSeek V4: eingeschränkte Mischung von Residual-Streams + komprimierte Long-Context-Attention
  • Transformer-Blöcke verändern sich weiterhin, aber in klar zielgerichteter Weise, während das Grundgerüst der GPT-Decoder-only-Architektur erhalten bleibt
  • Die qualitative Modellierungsleistung wird weiterhin vor allem von Datenqualität, Datenmenge und Trainingsrezept bestimmt
  • Bislang bleibt der Transformer der Status quo für SOTA-Architekturen, auch wenn es Alternativen wie Diffusion-Modelle gibt
  • Ein grundlegender Transformer-Block ließ sich früher in 50–100 Zeilen PyTorch implementieren, doch durch neuere Attention-Varianten und Ähnliches ist die Code-Komplexität etwa um den Faktor 10 gestiegen
  • Diese steigende Komplexität ist nicht nur negativ, weil sie Laufzeitkosten senkt, macht aber ein klares Verständnis einzelner Komponenten und ihrer Wechselwirkungen zunehmend schwieriger
  • Empfehlenswerter Lernansatz: mit ursprünglichen Decoder-Style-LLMs (GPT/GPT-2) beginnen und neue Komponenten dann schrittweise hinzufügen

Noch keine Kommentare.

Noch keine Kommentare.