- Gemma 3 ist Google DeepMinds neue Familie leichter Open-Modelle mit einer Parametergröße von 1B bis 27B
- Wichtige Verbesserungen:
- Multimodale Fähigkeiten hinzugefügt → einschließlich visuellen Verständnisses
- Verarbeitung langer Kontexte → unterstützt bis zu 128K Token
- Mehrsprachige Unterstützung verbessert → bessere Leistung in verschiedenen Sprachen
- Optimierter Speicherverbrauch → geringerer KV-Cache-Speicherverbrauch durch Anpassung des Verhältnisses von lokalem und globalem Attention (5:1)
- Training mit Knowledge Distillation → bessere Leistung gegenüber der vorherigen Version
# Modellarchitektur
- Beibehaltung der decoder-only Transformer-Architektur
- Einführung von Grouped-Query Attention (GQA) → effizienterer Attention-Mechanismus
- Lokales/globales Attention-Verhältnis von 5:1 → lokales Fenster von 1024 Token bleibt erhalten
- Erweiterung der Basisfrequenz von RoPE (Rotary Position Embedding) von 10K auf 1M → bessere Unterstützung für lange Kontexte
- Visueller Encoder: SigLIP-basierter Encoder (400M Parameter)
# Visuelle Modalität
- Visueller Encoder: arbeitet mit einer Auflösung von 896 x 896
- Pan & Scan (P&S) eingesetzt → Verarbeitung von Bildern mit unregelmäßigen Seitenverhältnissen möglich
- Der visuelle Encoder wird von den Modellen 4B, 12B und 27B gemeinsam genutzt → bleibt während des Trainings eingefroren
# Vortraining (Pre-training)
- Training mittels Knowledge Distillation
- Anzahl der für das Training verwendeten Token:
- 1B → 2T Token
- 4B → 4T Token
- 12B → 12T Token
- 27B → 14T Token
- Verbesserte mehrsprachige Leistung → enthält monolinguale und parallele Daten
- Bereinigungsprozess → Entfernung personenbezogener und sensibler Daten
# Quantization Aware Training
- Quantisierung nach dem Training → verfügbar in verschiedenen Formaten wie int4 und fp8
- Speichereinsparung:
- Beim 27B-Modell:
- Original: 54GB → nach Quantisierung: mindestens 14.1GB
# Instruction Tuning
- Kombination aus Reinforcement Learning und Knowledge Distillation
- Verbesserung von Hilfsbereitschaft, Mathematik, Coding, Reasoning und Mehrsprachigkeit
- Wichtige für Reinforcement Learning verwendete Techniken:
- BOND, WARM, WARP → reward-basierte Reinforcement-Learning-Verfahren
- Datenbereinigung → Entfernung unnötiger Daten und sensibler Informationen
# Leistungsbewertung
LMSYS Chatbot Arena-Ergebnisse
- Gemma 3 27B IT-Modell mit Elo-Wert: 1338 → Leistung unter den Top 10
- Erreicht eine Leistung nahe GPT-4.5 und Grok-3-Preview
- 118 Punkte höher als die vorherige Version Gemma 2 27B
Leistung in Standard-Benchmarks
- MMLU-Pro: 67.5 (etwa 10 Punkte höher als Gemma 2)
- MATH: 89.0 (etwa 34 Punkte höher als Gemma 2)
- LiveCodeBench: 29.7 (etwa 9 Punkte höher als Gemma 2)
# Leistungsanalyse anhand von Strukturänderungen
- Lokales:globales Attention-Verhältnis → 5:1 ist optimal für Leistung und Speicherverbrauch
- Sliding-Window-Größe → 1024 Token erhalten die Speichereffizienz ohne Leistungsverlust
- Reduzierung des KV-Cache-Speichers → 15% weniger als bei ausschließlich globalem Attention
# Verbesserte Unterstützung langer Kontexte
- Training begann mit 32K Token → anschließend auf 128K Token hochskaliert
- RoPE-Frequenzanpassung → Erweiterung des Kontexts ohne Leistungsabfall
# Bewertung der Leistung des visuellen Encoders
- Leistungssteigerung bei höherer Eingabeauflösung:
- Bei 256 → 896 Auflösung steigt die Leistung um bis zu 20%
- Leistungssteigerung durch Anwendung von Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# Speicher und Datenschutz
- Verringerte Memorisierungsrate:
- Gemma 3 reduziert die Speichernutzung im Vergleich zu Gemma 2
- Geringeres Risiko der Offenlegung personenbezogener Informationen
# Verantwortung, Safety und Security
- Verhinderung schädlicher Inhalte gemäß Googles Sicherheitsrichtlinien:
- Verhinderung von Kindesmissbrauch, Hassrede, Offenlegung persönlicher Informationen usw.
- Verstärktes Reinforcement Learning und RLHF eingesetzt → Erzeugung schädlicher Inhalte minimiert
# Fazit
- Gemma 3 bietet gegenüber Gemma 2 deutliche Verbesserungen bei Multimodalität, Mehrsprachigkeit und langen Kontexten
- Visuelles Verständnis sowie Mathematik- und Coding-Leistung wurden verbessert
- Optimierter Speicherverbrauch steigert sowohl Leistung als auch Effizienz
Noch keine Kommentare.