Gemma 3 QAT-Modelle: Modernste KI auf Consumer-GPUs bringen
(developers.googleblog.com)- Das im letzten Monat vorgestellte Gemma 3 ist ein offenes KI-Modell mit modernster Leistung und kann sogar auf einer einzelnen Hochleistungs-GPU wie der NVIDIA H100 ausgeführt werden
- Es wurde eine leichtgewichtige Version mit der Technik QAT (Quantization-Aware Training) veröffentlicht, sodass es nun auch auf Consumer-GPUs laufen kann
- Dank int4-Quantisierung wird der Speicherverbrauch deutlich reduziert, bei minimalem Leistungsverlust
- Die QAT-Modelle können auch auf gängigen GPUs wie RTX 3090 und RTX 4060 ausgeführt werden und sind sofort über Hugging Face, Ollama, LM Studio und weitere nutzbar
- Zusätzlich werden verschiedene PTQ-Modelle aus der Community bereitgestellt, was eine flexible Auswahl ermöglicht
Einführung in Gemma 3 und Leistungsüberblick
- Das von Google vorgestellte neueste offene Modell Gemma 3 ist ein Large Language Model mit herausragender Leistung
- Es kann mit BF16-Genauigkeit (16-Bit-Gleitkomma) auf einer NVIDIA H100 GPU ausgeführt werden und erzielte einen hervorragenden Chatbot Arena Elo Score
- Der Grund für die Verwendung von BF16 ist ein fairer Leistungsvergleich zwischen Modellen, da sich so die eigentliche Modellleistung ohne verschiedene Optimierungsmethoden vergleichen lässt
QAT-basierte Quantisierung für bessere Zugänglichkeit
- Bisher erforderten große Modelle leistungsstarke Cloud-Umgebungen, doch hier wurde QAT eingesetzt, um die Ausführung auch auf Consumer-Hardware zu ermöglichen
- Quantisierung (Quantization) reduziert die numerische Präzision im Modell und senkt so den Speicherverbrauch und beschleunigt die Ausführung
- Beispiel: Wird statt BF16 das Format int4 verwendet, ergibt sich ein Komprimierungseffekt von mehr als dem Vierfachen
Qualitätserhalt mit QAT
- Statt einfacher nachgelagerter Quantisierung wurde QAT (Quantization-Aware Training) verwendet, bei dem die Quantisierung bereits während des Trainings berücksichtigt wird
- Im Trainingsprozess wurden über etwa 5.000 Schritte die Vorhersagewahrscheinlichkeiten eines nicht quantisierten Checkpoints als Zielwerte verwendet
- Mit dieser Methode wurde bei der Q4_0-Quantisierung eine Verringerung des Perplexity-Abfalls um 54 % erreicht
Deutlich reduzierter VRAM-Verbrauch
-
Die VRAM-Einsparung durch int4-Quantisierung ist erheblich; die Reduktion je Modell sieht wie folgt aus:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
Diese Werte umfassen nur den VRAM, der zum Laden der Modellgewichte erforderlich ist; der während der Ausführung benötigte KV-Cache erfordert zusätzlichen VRAM
Auf verschiedenen Geräten lauffähig
- Gemma 3 27B (int4): lokal ausführbar auf einer RTX 3090 (24GB VRAM)
- Gemma 3 12B (int4): läuft problemlos auch auf einem RTX 4060 Laptop (8GB VRAM)
- Gemma 3 4B, 1B: können auch auf Smartphones und Geräten mit geringer Leistung ausgeführt werden
Einfache Integration und Nutzung
-
Die QAT-Modelle sind sofort auf verschiedenen Plattformen und in verschiedenen Tools nutzbar:
- Ollama: Ausführung mit einer einzigen Befehlszeile
- LM Studio: Download und Ausführung in einer GUI-Umgebung
- MLX: unterstützt hocheffiziente Inferenz auf Apple Silicon
- Gemma.cpp: leistungsstarke Ausführung in CPU-Umgebungen
- llama.cpp: einfache Integration im GGUF-Format
Community-Modelle im Gemmaverse
- Neben den offiziellen QAT-Modellen werden auch verschiedene PTQ-Modelle aus der Community angeboten
- Wichtige Beitragende: Bartowski, Unsloth, GGML
- Die verschiedenen Modelle lassen sich je nach gewünschter Balance aus Geschwindigkeit, Größe und Qualität auswählen
Jetzt direkt loslegen
- Als wichtiger Schritt für die Demokratisierung von KI ermöglicht die QAT-Version von Gemma 3 die lokale Ausführung für alle
- So geht's los:
- PC: Ollama
- Modelldownload: Hugging Face, Kaggle
- Mobile Ausführung: Google AI Edge verwenden
1 Kommentare
Hacker-News-Kommentar
Das Modell
gemma-3-27b-it-qat-4bitist zusammen mit Mistral Small 3.1 24B ein neues bevorzugtes ModellBei persönlichen „Vibe-Check“-Fragen liefert das 4bit-QAT-27B-Modell präzise Antworten
Das erste Diagramm vergleicht den „Elo Score“ in BF16-Präzision, das zweite den VRAM-Verbrauch
Statt
qwen2.5wirdgemma3:27b-it-qatfür Alltagsaufgaben auf einem Mac mit 32G Speicher verwendetLäuft auf einer 16-Core-AMD-3950x-CPU und ist bei Übersetzung und Bildbeschreibung sehr beeindruckend
Nach dem Download des neuesten QAT
gemma3:27bhat sich die Leistung um das 1,47-Fache verbessertLokale LLMs müssen von Unternehmen als Bürger erster Klasse behandelt werden
Microsoft und Apple haben AI PCs und Apple Intelligence beworben, aber Modelle, die tatsächlich auf Consumer-GPUs nutzbar sind, sind nur auf High-End-GPUs möglich
Gemma 3 ist Llama 4 deutlich überlegen
In Ollama verfügbar