12 Punkte von GN⁺ 2025-04-21 | 1 Kommentare | Auf WhatsApp teilen
  • Das im letzten Monat vorgestellte Gemma 3 ist ein offenes KI-Modell mit modernster Leistung und kann sogar auf einer einzelnen Hochleistungs-GPU wie der NVIDIA H100 ausgeführt werden
  • Es wurde eine leichtgewichtige Version mit der Technik QAT (Quantization-Aware Training) veröffentlicht, sodass es nun auch auf Consumer-GPUs laufen kann
  • Dank int4-Quantisierung wird der Speicherverbrauch deutlich reduziert, bei minimalem Leistungsverlust
  • Die QAT-Modelle können auch auf gängigen GPUs wie RTX 3090 und RTX 4060 ausgeführt werden und sind sofort über Hugging Face, Ollama, LM Studio und weitere nutzbar
  • Zusätzlich werden verschiedene PTQ-Modelle aus der Community bereitgestellt, was eine flexible Auswahl ermöglicht

Einführung in Gemma 3 und Leistungsüberblick

  • Das von Google vorgestellte neueste offene Modell Gemma 3 ist ein Large Language Model mit herausragender Leistung
  • Es kann mit BF16-Genauigkeit (16-Bit-Gleitkomma) auf einer NVIDIA H100 GPU ausgeführt werden und erzielte einen hervorragenden Chatbot Arena Elo Score
  • Der Grund für die Verwendung von BF16 ist ein fairer Leistungsvergleich zwischen Modellen, da sich so die eigentliche Modellleistung ohne verschiedene Optimierungsmethoden vergleichen lässt

QAT-basierte Quantisierung für bessere Zugänglichkeit

  • Bisher erforderten große Modelle leistungsstarke Cloud-Umgebungen, doch hier wurde QAT eingesetzt, um die Ausführung auch auf Consumer-Hardware zu ermöglichen
  • Quantisierung (Quantization) reduziert die numerische Präzision im Modell und senkt so den Speicherverbrauch und beschleunigt die Ausführung
  • Beispiel: Wird statt BF16 das Format int4 verwendet, ergibt sich ein Komprimierungseffekt von mehr als dem Vierfachen

Qualitätserhalt mit QAT

  • Statt einfacher nachgelagerter Quantisierung wurde QAT (Quantization-Aware Training) verwendet, bei dem die Quantisierung bereits während des Trainings berücksichtigt wird
  • Im Trainingsprozess wurden über etwa 5.000 Schritte die Vorhersagewahrscheinlichkeiten eines nicht quantisierten Checkpoints als Zielwerte verwendet
  • Mit dieser Methode wurde bei der Q4_0-Quantisierung eine Verringerung des Perplexity-Abfalls um 54 % erreicht

Deutlich reduzierter VRAM-Verbrauch

  • Die VRAM-Einsparung durch int4-Quantisierung ist erheblich; die Reduktion je Modell sieht wie folgt aus:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • Diese Werte umfassen nur den VRAM, der zum Laden der Modellgewichte erforderlich ist; der während der Ausführung benötigte KV-Cache erfordert zusätzlichen VRAM

Auf verschiedenen Geräten lauffähig

  • Gemma 3 27B (int4): lokal ausführbar auf einer RTX 3090 (24GB VRAM)
  • Gemma 3 12B (int4): läuft problemlos auch auf einem RTX 4060 Laptop (8GB VRAM)
  • Gemma 3 4B, 1B: können auch auf Smartphones und Geräten mit geringer Leistung ausgeführt werden

Einfache Integration und Nutzung

  • Die QAT-Modelle sind sofort auf verschiedenen Plattformen und in verschiedenen Tools nutzbar:

    • Ollama: Ausführung mit einer einzigen Befehlszeile
    • LM Studio: Download und Ausführung in einer GUI-Umgebung
    • MLX: unterstützt hocheffiziente Inferenz auf Apple Silicon
    • Gemma.cpp: leistungsstarke Ausführung in CPU-Umgebungen
    • llama.cpp: einfache Integration im GGUF-Format

Community-Modelle im Gemmaverse

  • Neben den offiziellen QAT-Modellen werden auch verschiedene PTQ-Modelle aus der Community angeboten
  • Wichtige Beitragende: Bartowski, Unsloth, GGML
  • Die verschiedenen Modelle lassen sich je nach gewünschter Balance aus Geschwindigkeit, Größe und Qualität auswählen

Jetzt direkt loslegen

  • Als wichtiger Schritt für die Demokratisierung von KI ermöglicht die QAT-Version von Gemma 3 die lokale Ausführung für alle
  • So geht's los:

1 Kommentare

 
GN⁺ 2025-04-21
Hacker-News-Kommentar
  • Das Modell gemma-3-27b-it-qat-4bit ist zusammen mit Mistral Small 3.1 24B ein neues bevorzugtes Modell

    • Wird auf einem M2 64GB über Ollama und MLX verwendet, mit geringem Speicherverbrauch, sodass genug Spielraum für andere Apps bleibt
    • Beim Schreiben eines Plugins für LLM-Tools wurden erfolgreiche Ergebnisse erzielt
  • Bei persönlichen „Vibe-Check“-Fragen liefert das 4bit-QAT-27B-Modell präzise Antworten

    • Die Informationsdichte in 13GB Gewichten wird als erstaunlich empfunden
    • Das Gemma-3-27B-Modell von DeepMind ist das beeindruckendste Open-Source-Modell
  • Das erste Diagramm vergleicht den „Elo Score“ in BF16-Präzision, das zweite den VRAM-Verbrauch

    • Schade ist, dass es kein Diagramm zum Qualitätsvergleich zwischen BF16 und QAT gibt
  • Statt qwen2.5 wird gemma3:27b-it-qat für Alltagsaufgaben auf einem Mac mit 32G Speicher verwendet

    • Sehr nützlich für die Entwicklung mit Python, Haskell und Common Lisp
    • Es ist befriedigend, Open-Source-Modelle lokal auszuführen
  • Läuft auf einer 16-Core-AMD-3950x-CPU und ist bei Übersetzung und Bildbeschreibung sehr beeindruckend

    • Bei Übersetzungen werden die Anweisungen angepasst, um die Analyse der Eingabesprache zu vermeiden
  • Nach dem Download des neuesten QAT gemma3:27b hat sich die Leistung um das 1,47-Fache verbessert

  • Lokale LLMs müssen von Unternehmen als Bürger erster Klasse behandelt werden

    • Das erste Diagramm könnte in Bezug auf die für die FP16-Ausführung von DeepSeek r1 nötige Anzahl an H100 missverstanden werden
  • Microsoft und Apple haben AI PCs und Apple Intelligence beworben, aber Modelle, die tatsächlich auf Consumer-GPUs nutzbar sind, sind nur auf High-End-GPUs möglich

  • Gemma 3 ist Llama 4 deutlich überlegen

    • Meta könnte seine Position im LLM-Markt verlieren
    • Die Modellgröße von Llama 4 ist zu groß und schränkt Nutzer ein
    • Gemma 3 ist auf Hardware jeder Größenordnung breit nutzbar
  • In Ollama verfügbar