Technischer Bericht zu Google DeepMinds Gemma 3 [pdf]

(storage.googleapis.com)

2 Punkte von GN⁺ 2025-03-13 | Noch keine Kommentare. | Auf WhatsApp teilen

Gemma 3 ist Google DeepMinds neue Familie leichter Open-Modelle mit einer Parametergröße von 1B bis 27B
Wichtige Verbesserungen:
- Multimodale Fähigkeiten hinzugefügt → einschließlich visuellen Verständnisses
- Verarbeitung langer Kontexte → unterstützt bis zu 128K Token
- Mehrsprachige Unterstützung verbessert → bessere Leistung in verschiedenen Sprachen
- Optimierter Speicherverbrauch → geringerer KV-Cache-Speicherverbrauch durch Anpassung des Verhältnisses von lokalem und globalem Attention (5:1)
Training mit Knowledge Distillation → bessere Leistung gegenüber der vorherigen Version

Beibehaltung der decoder-only Transformer-Architektur
Einführung von Grouped-Query Attention (GQA) → effizienterer Attention-Mechanismus
Lokales/globales Attention-Verhältnis von 5:1 → lokales Fenster von 1024 Token bleibt erhalten
Erweiterung der Basisfrequenz von RoPE (Rotary Position Embedding) von 10K auf 1M → bessere Unterstützung für lange Kontexte
Visueller Encoder: SigLIP-basierter Encoder (400M Parameter)

Visueller Encoder: arbeitet mit einer Auflösung von 896 x 896
Pan & Scan (P&S) eingesetzt → Verarbeitung von Bildern mit unregelmäßigen Seitenverhältnissen möglich
Der visuelle Encoder wird von den Modellen 4B, 12B und 27B gemeinsam genutzt → bleibt während des Trainings eingefroren

Training mittels Knowledge Distillation
Anzahl der für das Training verwendeten Token:
- 1B → 2T Token
- 4B → 4T Token
- 12B → 12T Token
- 27B → 14T Token
Verbesserte mehrsprachige Leistung → enthält monolinguale und parallele Daten
Bereinigungsprozess → Entfernung personenbezogener und sensibler Daten

Quantisierung nach dem Training → verfügbar in verschiedenen Formaten wie int4 und fp8
Speichereinsparung:
- Beim 27B-Modell:
  - Original: 54GB → nach Quantisierung: mindestens 14.1GB

Kombination aus Reinforcement Learning und Knowledge Distillation
Verbesserung von Hilfsbereitschaft, Mathematik, Coding, Reasoning und Mehrsprachigkeit
Wichtige für Reinforcement Learning verwendete Techniken:
- BOND, WARM, WARP → reward-basierte Reinforcement-Learning-Verfahren
Datenbereinigung → Entfernung unnötiger Daten und sensibler Informationen

Lokales:globales Attention-Verhältnis → 5:1 ist optimal für Leistung und Speicherverbrauch
Sliding-Window-Größe → 1024 Token erhalten die Speichereffizienz ohne Leistungsverlust
Reduzierung des KV-Cache-Speichers → 15% weniger als bei ausschließlich globalem Attention

Training begann mit 32K Token → anschließend auf 128K Token hochskaliert
RoPE-Frequenzanpassung → Erweiterung des Kontexts ohne Leistungsabfall

Leistungssteigerung bei höherer Eingabeauflösung:
- Bei 256 → 896 Auflösung steigt die Leistung um bis zu 20%
Leistungssteigerung durch Anwendung von Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%

Verringerte Memorisierungsrate:
- Gemma 3 reduziert die Speichernutzung im Vergleich zu Gemma 2
- Geringeres Risiko der Offenlegung personenbezogener Informationen

Verhinderung schädlicher Inhalte gemäß Googles Sicherheitsrichtlinien:
- Verhinderung von Kindesmissbrauch, Hassrede, Offenlegung persönlicher Informationen usw.
Verstärktes Reinforcement Learning und RLHF eingesetzt → Erzeugung schädlicher Inhalte minimiert

Gemma 3 bietet gegenüber Gemma 2 deutliche Verbesserungen bei Multimodalität, Mehrsprachigkeit und langen Kontexten
Visuelles Verständnis sowie Mathematik- und Coding-Leistung wurden verbessert
Optimierter Speicherverbrauch steigert sowohl Leistung als auch Effizienz

Verwandte Beiträge