Visueller Leitfaden zu Gemma 4

(newsletter.maartengrootendorst.com)

17 Punkte von GN⁺ 26 일 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Gemma 4 von Google DeepMind ist eine multimodale LLM-Familie mit vier Modellen: E2B, E4B, 31B und 26B A4B; alle Varianten unterstützen Bildeingaben
Alle Modelle teilen eine Architektur, in der lokale Attention (Sliding Window) und globale Attention-Layer abwechselnd angeordnet sind; der letzte Layer ist immer globale Attention
In den globalen Attention-Layern werden gleichzeitig drei Effizienztechniken eingesetzt: GQA (Grouped Query Attention), die K=V-Methode und p-RoPE, um Speicher- und Rechenaufwand zu senken
Die kleinen Modelle (E2B, E4B) nutzen Per-Layer Embeddings (PLE), um große Embedding-Tabellen im Flash-Speicher abzulegen und so den VRAM-Verbrauch zu minimieren; zusätzlich ist ein Audio-Encoder integriert
Gemma 4 unterstützt dank eines Vision-Encoders (auf ViT-Basis) mit variablen Seitenverhältnissen und Auflösungen sowie einer MoE-Architektur (26B A4B) ein breites Einsatzspektrum von On-Device bis hin zu großskaliger Inferenz

Aufbau der Gemma-4-Familie

Besteht aus vier Modellen und verwendet zwei Architekturtypen: Dense und MoE
- Gemma 4 - E2B: mit Per-Layer Embeddings, 2 Milliarden effektive Parameter
- Gemma 4 - E4B: mit Per-Layer Embeddings, 4 Milliarden effektive Parameter
- Gemma 4 - 31B: Dense-Modell mit 31 Milliarden Parametern
- Gemma 4 - 26B A4B: MoE-Modell mit insgesamt 26 Milliarden Parametern, bei der Inferenz werden nur 4 Milliarden Parameter aktiviert
Alle Modelle sind multimodal und können Bildeingaben in verschiedenen Größen und Auflösungen verarbeiten
Die kleinen Modelle (E2B, E4B) unterstützen zusätzlich zu Bild und Text auch Audioeingaben

Gemeinsame Architektur von Gemma 4

Abwechselnde Anordnung von Attention-Layern (Interleaving Layers)

Wie schon bei Gemma 3 werden lokale Attention (Sliding Window) und globale Attention abwechselnd angeordnet
- Sliding-Window-Attention: betrachtet nur Tokens innerhalb eines festen Bereichs → geringerer Rechenaufwand
- Globale Attention: betrachtet die gesamte Sequenz → kann die Gesamtstruktur des Kontexts erfassen
Größe des Sliding Window
- Kleine Modelle (E2B, E4B): 512 Tokens
- Große Modelle (26B A4B, 31B): 1024 Tokens
In Gemma 3 konnte der letzte Layer lokal sein; in Gemma 4 ist der letzte Layer immer globale Attention
Interleaving-Verhältnis
- E2B: 4:1-Muster aus 4 lokalen Attention-Layern + 1 globalem Attention-Layer
- Übrige Modelle: 5:1-Muster (5 lokale Layer + 1 globaler Layer)

Effizienzsteigerung bei globaler Attention

GQA (Grouped Query Attention)

In den globalen Attention-Layern teilen sich 8 Query-Heads einen KV-Head, was den Speicherbedarf des KV-Cache deutlich reduziert
Um den Leistungsabfall durch weniger KV-Heads auszugleichen, wird die Dimensionsgröße der Keys verdoppelt

K=V-Methode

In den globalen Attention-Layern werden Keys und Values identisch gesetzt, was den Speicherbedarf des KV-Cache zusätzlich senkt
Eine Methode, die die Speichereffizienz erhöht, ohne die Leistung stark zu verschlechtern

p-RoPE

RoPE (rotary positional encoding) wird nicht auf alle, sondern nur auf einen Teil der Dimensionen angewendet (bei p=0,25 nur auf die oberen 25 % der Paare)
Niedrigfrequente Paare werden genutzt, um statt Positionsinformation semantische Information zu bewahren
Besonders wirksam in globaler Attention, um Verzerrungen von Token-Abständen in langen Kontexten zu mildern
Zusammenfassung der Verbesserungen in den globalen Attention-Layern:
- Der letzte Layer ist immer globale Attention
- 1 Key wird von je 8 Queries geteilt
- Key-Dimension verdoppelt
- Keys = Values
- p-RoPE mit p=0,25

Vision-Encoder

Basiert auf Vision Transformer (ViT) und wandelt Bilder in Patch-Sequenzen um, aus denen Embeddings erzeugt werden
- Jeder Patch hat eine Größe von 16×16 Pixeln
Die kleinen Modelle (E2B, E4B) verwenden einen Vision-Encoder mit 150 Millionen Parametern, die übrigen Modelle einen mit 550 Millionen Parametern

Unterstützung variabler Seitenverhältnisse

Herkömmliche ViTs setzen feste quadratische Eingaben voraus → dadurch entstehen Probleme, weil sich die Positionskodierung je nach Seitenverhältnis verändert
Gemma 4 führt 2D RoPE ein: Patch-Embeddings werden in zwei Teile aufgeteilt, die horizontale (w) und vertikale (h) Positionsinformation jeweils unabhängig kodieren
Eingabebilder werden passend zu 16×16-Pixel-Patches adaptiv skaliert, nicht vollständig passende Bereiche werden gepolstert
Patches variabler Größe werden auf Basis ihrer räumlichen Position gepoolt und auf eine feste Anzahl von Patch-Embeddings reduziert

Unterstützung variabler Auflösung (Soft Token Budget)

Einführung des Konzepts Soft Token Budget: Die maximale Anzahl an Patch-Embeddings, die an das LLM weitergegeben wird, wird begrenzt
- Vom Nutzer wählbare Budgets: 70, 140, 280, 560, 1120 Tokens
Je höher das Budget (z. B. 1120), desto eher bleibt die hohe Auflösung erhalten; je niedriger es ist (z. B. 70), desto stärker wird das Bild herunterskaliert
Beispiel: Bei einem Budget von 280 beträgt die maximale Patch-Zahl = 9 × 280 = 2.520 (mit Average Pooling in 3×3-Blöcken)

Lineare Projektion (Linear Projection)

Die Ausgabe-Embeddings des Vision-Encoders unterscheiden sich in Dimension und Verteilung von den Token-Embeddings des LLM und werden daher über ein kleines neuronales Netz projiziert
Nach der Projektion wird RMSNorm angewendet, damit die Skalen den Erwartungen der nachfolgenden Transformer-Blöcke entsprechen
Der lineare Projektions-Layer wird gemeinsam mit Gemma 4 trainiert, damit die Patch-Embeddings optimal an den Erwartungsraum des LLM angepasst sind

Gemma 4 - 31B (Dense)

Ein Modell mit Dense-Architektur und 31 Milliarden Parametern, strukturell die grundlegendste Variante innerhalb der Gemma-4-Familie
Strukturell ähnlich zum 27B-Modell von Gemma 3, jedoch mit den gemeinsamen Verbesserungen von Gemma 4 wie K=V und p-RoPE
Die Zahl der Layer wurde von 62 auf 60 reduziert, dafür ist die Breite pro Layer größer

Gemma 4 - 26B A4B (Mixture of Experts)

Insgesamt 26 Milliarden Parameter, aber bei der Inferenz werden nur 4 Milliarden Parameter (aktive Parameter) genutzt, sodass es mit der Geschwindigkeit eines 4B-Modells arbeitet
MoE (Mixture of Experts)-Struktur: Statt eines allgemeinen großen FFNN gibt es viele kleine FFNNs (Experts), von denen abhängig von der Eingabe nur einige aktiviert werden
- Von insgesamt 128 Experts werden bei der Inferenz 8 ausgewählt und aktiviert
- 1 Shared Expert ist immer aktiv: Er verarbeitet allgemeines Wissen und ist dreimal so groß wie die anderen Experts
Ein Router erzeugt für jedes Eingabe-Token Wahrscheinlichkeiten zur Auswahl der Experts und routet entsprechend; auf die Ergebnisse der ausgewählten Experts werden Wahrscheinlichkeitsgewichte angewendet
Alle Parameter werden in den Speicher geladen, in der tatsächlichen Berechnung werden jedoch nur 8 Experts + 1 Shared Expert verwendet → die übrigen 119 bleiben in Bereitschaft

Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)

Per-Layer Embeddings (PLE)

Statt im Modellkern werden separate Embedding-Lookup-Tabellen für jeden Layer hinzugefügt, um den VRAM-Verbrauch auf kleinen Geräten zu minimieren
Am Beispiel E2B: PLE-Tabellen mit 262.144 Tokens × 35 Layern × 256 Dimensionen → im Flash-Speicher abgelegt
Zu Beginn der Inferenz werden die Layer-spezifischen Embeddings der Eingabe-Tokens einmalig nachgeschlagen → später ist in den einzelnen Layern kein erneuter Lookup nötig
Zwischen den Decoder-Blöcken bestimmt eine Gating-Funktion die Gewichtung der Embeddings; anschließend werden sie auf die ursprüngliche Embedding-Größe projiziert (E2B: 256→1536, E4B: 256→2560)
Die projizierten Embeddings werden normalisiert und mit der Ausgabe des vorherigen Decoder-Blocks addiert → das Modell kann fortlaufend auf die Token-Bedeutung Bezug nehmen
Das „E“ steht für effective parameters ohne PLE

Audio-Encoder

Nur in den kleinen Modellen (E2B, E4B) enthalten und für automatische Spracherkennung und Übersetzung nutzbar
Drei Schritte der Audioverarbeitung:
1. Feature-Extraktion: Roh-Audio → Mel-Spektrogramm (mel-spectrogram) (2D-Darstellung aus Zeit × Frequenz)
2. Chunk-Gruppierung: Mel-Features werden zu Chunks gebündelt, die den Ausgangspunkt der Token-Sequenz bilden
3. Downsampling: Zwei 2D-Convolution-Layer verkürzen die Sequenzlänge und erzeugen Soft Tokens
Als Audio-Encoder wird ein Conformer verwendet: eine Struktur, die einem Standard-Transformer-Encoder Convolution-Module hinzufügt
Die Ausgabe-Embeddings des Conformer werden ebenso wie beim Vision-Encoder per linearer Projektion in den Embedding-Raum von Gemma 4 überführt

Visueller Leitfaden zu Gemma 4

Aufbau der Gemma-4-Familie

Gemeinsame Architektur von Gemma 4

Abwechselnde Anordnung von Attention-Layern (Interleaving Layers)

Effizienzsteigerung bei globaler Attention

GQA (Grouped Query Attention)

K=V-Methode

p-RoPE

Vision-Encoder

Unterstützung variabler Seitenverhältnisse

Unterstützung variabler Auflösung (Soft Token Budget)

Lineare Projektion (Linear Projection)

Gemma 4 - 31B (Dense)

Gemma 4 - 26B A4B (Mixture of Experts)

Gemma 4 - E2B & E4B (Dense + Per-Layer Embeddings)

Per-Layer Embeddings (PLE)

Audio-Encoder

Verwandte Beiträge

Noch keine Kommentare.