2 Punkte von GN⁺ 2025-03-13 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Gemma 3 ist Google DeepMinds neue Familie leichter Open-Modelle mit einer Parametergröße von 1B bis 27B
  • Wichtige Verbesserungen:
    • Multimodale Fähigkeiten hinzugefügt → einschließlich visuellen Verständnisses
    • Verarbeitung langer Kontexte → unterstützt bis zu 128K Token
    • Mehrsprachige Unterstützung verbessert → bessere Leistung in verschiedenen Sprachen
    • Optimierter Speicherverbrauch → geringerer KV-Cache-Speicherverbrauch durch Anpassung des Verhältnisses von lokalem und globalem Attention (5:1)
  • Training mit Knowledge Distillation → bessere Leistung gegenüber der vorherigen Version

# Modellarchitektur

  • Beibehaltung der decoder-only Transformer-Architektur
  • Einführung von Grouped-Query Attention (GQA) → effizienterer Attention-Mechanismus
  • Lokales/globales Attention-Verhältnis von 5:1 → lokales Fenster von 1024 Token bleibt erhalten
  • Erweiterung der Basisfrequenz von RoPE (Rotary Position Embedding) von 10K auf 1M → bessere Unterstützung für lange Kontexte
  • Visueller Encoder: SigLIP-basierter Encoder (400M Parameter)

# Visuelle Modalität

  • Visueller Encoder: arbeitet mit einer Auflösung von 896 x 896
  • Pan & Scan (P&S) eingesetzt → Verarbeitung von Bildern mit unregelmäßigen Seitenverhältnissen möglich
  • Der visuelle Encoder wird von den Modellen 4B, 12B und 27B gemeinsam genutzt → bleibt während des Trainings eingefroren

# Vortraining (Pre-training)

  • Training mittels Knowledge Distillation
  • Anzahl der für das Training verwendeten Token:
    • 1B → 2T Token
    • 4B → 4T Token
    • 12B → 12T Token
    • 27B → 14T Token
  • Verbesserte mehrsprachige Leistung → enthält monolinguale und parallele Daten
  • Bereinigungsprozess → Entfernung personenbezogener und sensibler Daten

# Quantization Aware Training

  • Quantisierung nach dem Training → verfügbar in verschiedenen Formaten wie int4 und fp8
  • Speichereinsparung:
    • Beim 27B-Modell:
      • Original: 54GB → nach Quantisierung: mindestens 14.1GB

# Instruction Tuning

  • Kombination aus Reinforcement Learning und Knowledge Distillation
  • Verbesserung von Hilfsbereitschaft, Mathematik, Coding, Reasoning und Mehrsprachigkeit
  • Wichtige für Reinforcement Learning verwendete Techniken:
    • BOND, WARM, WARP → reward-basierte Reinforcement-Learning-Verfahren
  • Datenbereinigung → Entfernung unnötiger Daten und sensibler Informationen

# Leistungsbewertung

LMSYS Chatbot Arena-Ergebnisse

  • Gemma 3 27B IT-Modell mit Elo-Wert: 1338 → Leistung unter den Top 10
  • Erreicht eine Leistung nahe GPT-4.5 und Grok-3-Preview
  • 118 Punkte höher als die vorherige Version Gemma 2 27B

Leistung in Standard-Benchmarks

  • MMLU-Pro: 67.5 (etwa 10 Punkte höher als Gemma 2)
  • MATH: 89.0 (etwa 34 Punkte höher als Gemma 2)
  • LiveCodeBench: 29.7 (etwa 9 Punkte höher als Gemma 2)

# Leistungsanalyse anhand von Strukturänderungen

  • Lokales:globales Attention-Verhältnis → 5:1 ist optimal für Leistung und Speicherverbrauch
  • Sliding-Window-Größe → 1024 Token erhalten die Speichereffizienz ohne Leistungsverlust
  • Reduzierung des KV-Cache-Speichers → 15% weniger als bei ausschließlich globalem Attention

# Verbesserte Unterstützung langer Kontexte

  • Training begann mit 32K Token → anschließend auf 128K Token hochskaliert
  • RoPE-Frequenzanpassung → Erweiterung des Kontexts ohne Leistungsabfall

# Bewertung der Leistung des visuellen Encoders

  • Leistungssteigerung bei höherer Eingabeauflösung:
    • Bei 256 → 896 Auflösung steigt die Leistung um bis zu 20%
  • Leistungssteigerung durch Anwendung von Pan & Scan:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# Speicher und Datenschutz

  • Verringerte Memorisierungsrate:
    • Gemma 3 reduziert die Speichernutzung im Vergleich zu Gemma 2
    • Geringeres Risiko der Offenlegung personenbezogener Informationen

# Verantwortung, Safety und Security

  • Verhinderung schädlicher Inhalte gemäß Googles Sicherheitsrichtlinien:
    • Verhinderung von Kindesmissbrauch, Hassrede, Offenlegung persönlicher Informationen usw.
  • Verstärktes Reinforcement Learning und RLHF eingesetzt → Erzeugung schädlicher Inhalte minimiert

# Fazit

  • Gemma 3 bietet gegenüber Gemma 2 deutliche Verbesserungen bei Multimodalität, Mehrsprachigkeit und langen Kontexten
  • Visuelles Verständnis sowie Mathematik- und Coding-Leistung wurden verbessert
  • Optimierter Speicherverbrauch steigert sowohl Leistung als auch Effizienz

Noch keine Kommentare.

Noch keine Kommentare.