Gemma 3 QAT-Modelle: Modernste KI auf Consumer-GPUs bringen

Das im letzten Monat vorgestellte Gemma 3 ist ein offenes KI-Modell mit modernster Leistung und kann sogar auf einer einzelnen Hochleistungs-GPU wie der NVIDIA H100 ausgeführt werden
Es wurde eine leichtgewichtige Version mit der Technik QAT (Quantization-Aware Training) veröffentlicht, sodass es nun auch auf Consumer-GPUs laufen kann
Dank int4-Quantisierung wird der Speicherverbrauch deutlich reduziert, bei minimalem Leistungsverlust
Die QAT-Modelle können auch auf gängigen GPUs wie RTX 3090 und RTX 4060 ausgeführt werden und sind sofort über Hugging Face, Ollama, LM Studio und weitere nutzbar
Zusätzlich werden verschiedene PTQ-Modelle aus der Community bereitgestellt, was eine flexible Auswahl ermöglicht

Einführung in Gemma 3 und Leistungsüberblick

Das von Google vorgestellte neueste offene Modell Gemma 3 ist ein Large Language Model mit herausragender Leistung
Es kann mit BF16-Genauigkeit (16-Bit-Gleitkomma) auf einer NVIDIA H100 GPU ausgeführt werden und erzielte einen hervorragenden Chatbot Arena Elo Score
Der Grund für die Verwendung von BF16 ist ein fairer Leistungsvergleich zwischen Modellen, da sich so die eigentliche Modellleistung ohne verschiedene Optimierungsmethoden vergleichen lässt

Bisher erforderten große Modelle leistungsstarke Cloud-Umgebungen, doch hier wurde QAT eingesetzt, um die Ausführung auch auf Consumer-Hardware zu ermöglichen
Quantisierung (Quantization) reduziert die numerische Präzision im Modell und senkt so den Speicherverbrauch und beschleunigt die Ausführung
Beispiel: Wird statt BF16 das Format int4 verwendet, ergibt sich ein Komprimierungseffekt von mehr als dem Vierfachen

Statt einfacher nachgelagerter Quantisierung wurde QAT (Quantization-Aware Training) verwendet, bei dem die Quantisierung bereits während des Trainings berücksichtigt wird
Im Trainingsprozess wurden über etwa 5.000 Schritte die Vorhersagewahrscheinlichkeiten eines nicht quantisierten Checkpoints als Zielwerte verwendet
Mit dieser Methode wurde bei der Q4_0-Quantisierung eine Verringerung des Perplexity-Abfalls um 54 % erreicht

Die VRAM-Einsparung durch int4-Quantisierung ist erheblich; die Reduktion je Modell sieht wie folgt aus:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
Diese Werte umfassen nur den VRAM, der zum Laden der Modellgewichte erforderlich ist; der während der Ausführung benötigte KV-Cache erfordert zusätzlichen VRAM

Gemma 3 27B (int4): lokal ausführbar auf einer RTX 3090 (24GB VRAM)
Gemma 3 12B (int4): läuft problemlos auch auf einem RTX 4060 Laptop (8GB VRAM)
Gemma 3 4B, 1B: können auch auf Smartphones und Geräten mit geringer Leistung ausgeführt werden

Neben den offiziellen QAT-Modellen werden auch verschiedene PTQ-Modelle aus der Community angeboten
Wichtige Beitragende: Bartowski, Unsloth, GGML
Die verschiedenen Modelle lassen sich je nach gewünschter Balance aus Geschwindigkeit, Größe und Qualität auswählen

Als wichtiger Schritt für die Demokratisierung von KI ermöglicht die QAT-Version von Gemma 3 die lokale Ausführung für alle
So geht's los:
- PC: Ollama
- Modelldownload: Hugging Face, Kaggle
- Mobile Ausführung: Google AI Edge verwenden