1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Die QAT-Checkpoints (Quantization Aware Training) von Gemma 4 optimieren Speicheranforderungen und On-Device-Performance, damit die Modelle lokal auf alltäglichen Edge-Geräten und Consumer-GPUs ausgeführt werden können
  • QAT simuliert die Quantisierung während des Trainings, reduziert so Qualitätsverluste bei der Komprimierung und liefert insgesamt eine höhere Qualität als die Standard-PTQ-Baselines
  • Die veröffentlichten Checkpoints zielen auf das Format Q4_0 und auf mobil spezialisierte Formate; das mobile Format senkt den Memory Footprint von Gemma 4 E2B auf 1 GB
  • Das mobile Schema reduziert mit statischen Aktivierungen, kanalweiser Quantisierung, selektiver 2-Bit-Quantisierung sowie Optimierungen für Embeddings und KV-Cache die Arbeitslast und den aktiven Speicherverbrauch mobiler Chips
  • Mit Unterstützung für Hugging-Face-Gewichte, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js sowie SGLang·vLLM·MLX·Unsloth sind lokale Ausführung, On-Device-Bereitstellung und Fine-Tuning möglich

Hintergrund der Veröffentlichung und Umfang

  • Zwei Monate nach dem Start von Gemma 4 hat Google nach Multi-Token Prediction(MTP) zur Beschleunigung der Inferenz und dem 12B-Modell, das die Lücke zwischen den MOE-Modellen E4B und 26B schließt, nun QAT-Checkpoints veröffentlicht
  • Die neuen Checkpoints sind Teil von Effizienzmaßnahmen, mit denen Gemma 4 lokal auf alltäglichen Edge-Geräten und Consumer-GPUs ausgeführt werden kann
  • QAT ist ein Verfahren, das Quantisierung während des Trainings simuliert, um Qualitätsverluste bei der Modellkomprimierung zu minimieren
  • Diese Veröffentlichung bietet QAT-Checkpoints für das beliebte Quantisierungsformat Q4_0 sowie ein neues Quantisierungsformat speziell für mobile Einsatzszenarien

Kompromiss zwischen Komprimierung und Qualität

  • Quantisierung ist eine Schlüsseltechnologie, um Modelle auf Consumer-Hardware auszuführen, da sie den Memory Footprint reduziert und die Decoding-Geschwindigkeit erhöht
  • Standardmäßige Post-Training Quantization (PTQ) führt oft zu Leistungseinbußen, während QAT den Quantisierungsprozess direkt in das Training integriert
  • Auch PTQ ist beim Erhalt der Qualität wirksam, doch die Ergebnisse von QAT liefern insgesamt eine höhere Qualität als die Standard-PTQ-Baselines
  • Google hat das QAT-Rezept auf das Format Q4_0 angewendet, um die Leistung aller Modelle zu maximieren, und für die Edge-Modelle E2B und E4B zusätzlich ein mobil spezialisiertes Quantisierungsschema entworfen

Struktur der mobilen Optimierung

  • Da Standard-Komprimierungsformate auf mobilen Prozessoren oft nicht effizient ausgeführt werden können, verwendet Gemma 4 ein maßgeschneidertes mobiles Quantisierungsschema für Edge-Hardware
  • Statische Aktivierungen berechnen Datenskalierungen bereits während des Trainings vor, reduzieren so die Arbeitslast mobiler Chips und erhöhen die Reaktionsgeschwindigkeit
  • Kanalweise Quantisierung organisiert komprimierte Daten passend zur Struktur mobiler Beschleuniger und ermöglicht native Berechnungen ohne langsame Umgehungslösungen
  • Selektive 2-Bit-Quantisierung komprimiert den Teil für die Token-Generierung stark auf 2 Bit, hält zentrale Inferenz-Layer aber mit höherer Präzision, um Speicherplatz zu sparen
  • Optimierungen für Embeddings und KV-Cache konzentrieren die Komprimierung auf den Wortschatz und den Kurzzeitspeicher des Modells, verringern den aktiven Memory Footprint deutlich und ermöglichen längere Dialoge
  • Für Anwendungsfälle ohne Audio- oder Vision-Encoder kann nur die benötigte Modalität bereitgestellt werden, um den Memory Footprint weiter zu senken; das reine Textmodell Gemma 4 E2B ohne Per-Layer Embeddings benötigt weniger als 1 GB Speicher

Nutzung und Tool-Unterstützung

  • Google stellt die Modellgewichte für Q4_0 und mobile auf Hugging Face bereit
  • Das GGUF-Format kann direkt in llama.cpp verwendet werden, komprimierte Tensoren werden für vLLM bereitgestellt, und für andere Workflows werden nicht quantisierte Checkpoints geteilt, die in Q4_0-unterstützte Formate konvertiert und quantisiert werden können
  • Bereitstellungsmethoden finden sich in der Dokumentation
  • Auf dem Desktop lassen sich Gemma-4-QAT-Modelle mit llama.cpp, Ollama und LM Studio lokal herunterladen, verwalten und ausführen
  • Für die On-Device-Bereitstellung kann Googles leichtgewichtige Runtime LiteRT-LM genutzt werden, im Web ist die direkte Ausführung mit Transformers.js möglich
  • Für das Serving großer Modelle stehen SGLang und vLLM zur Verfügung, für Optimierungen auf Apple Silicon kann MLX verwendet werden
  • MTP-QAT-Checkpoints bewahren die Geschwindigkeitsvorteile von MTP, während das Modell quantisiert wird, und die Gewichte können mit Hugging Face Transformers und Unsloth direkt finegetunt werden

1 Kommentare

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Ich habe Gemma 4 E2B lokal auf einem Mac mit uvx litert-lm run ausgeführt; beim ersten Start wurden 3,2 GB nach ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm heruntergeladen.
    Ziemlich beeindruckend, dass ein Modell dieser Größe auch Audio- und Bildeingaben verarbeiten kann; für Bilder lässt es sich etwa mit --attachment image.jpg --prompt describe und für Audio mit --attachment audio.wav --prompt transcribe ausführen.
    Das Pelikan-SVG-Ergebnis selbst war nicht besonders gut, aber es war erstaunlich, dass eine 3,2-GB-Datei überhaupt ein gültiges SVG ausgibt: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...

    • Ich bin mir nicht sicher, ob das tatsächlich Quantization-Aware Training (QAT) ist.
      Bei den MLX-Community-Modellen steht das so im Namen, bei diesen Modellen jedoch nicht, und auch das Upload-Datum wirkt nicht ganz stimmig.
    • Erstaunlich ist auch, dass es eine 0,8-GB-Version nur für Text gibt.
      Damit werden grundlegende Echtzeitgespräche möglich, bei denen Video und Audio direkt auf dem Gerät erkannt werden.
    • Unabhängig davon ist uvx wirklich angenehm zu benutzen.
      Ich wünschte, Nvidia würde das ebenfalls erstklassig unterstützen, statt die Leute zu Docker-Umgehungslösungen zu zwingen.
  • Es gibt auch die Unsloth-Collection [0], und die Ergebnisse sind ebenfalls veröffentlicht [1].
    Im Vergleich zu nicht quantisierten BF16-Modellen scheint sie fast 100 % Genauigkeit zu erreichen, und die Unsloth-Quantisierung wirkt besser als Googles ursprüngliches QAT aus dem Artikel.
    Ich nutze auf meinem Smartphone persönlich bereits ein eingebettetes 2B-Modell mit Unsloth Studio und API für Websuche und strukturierte JSON-Ausgabe, und dafür passt es sehr gut.
    [0] https://huggingface.co/collections/unsloth/gemma-4-qat
    [1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis

    • Ich glaube, du hast das Diagramm missverstanden.
      Was dort zu sehen ist, ist nicht normales BF16, sondern BF16 QAT Q4_0.
      Das bedeutet eher, dass Google das Modell auf 4 Bit quantisiert und das Ergebnis dann aus Kompatibilitäts- und Komfortgründen mit nachgelagerten Packern im BF16-Format gespeichert hat.
      Das ist ein wenig so, als würde man kleine 8-Bit-Zahlen in 32-Bit-Integern ablegen; es bedeutet also nicht, dass es nahe an 100 % eines nicht quantisierten BF16 liegt.
      Ich frage mich allerdings, warum das von Google veröffentlichte 4-Bit-QAT-Q4_0 nicht exakt 100 % von BF16 QAT Q4_0 erreicht. Die Umwandlung zwischen diesen beiden Packings sollte doch eigentlich ohne zusätzliche Quantisierung nur Bitmanipulation sein, aber Unsloth spricht von einem Gitterausrichtungsproblem.
      Unabhängig davon gefällt mir nicht, dass Hersteller kleinerer Modelle wie Google oder Qwen bei neuen Modellen nur BF16-Benchmarks zeigen. In der Praxis nutzen die Leute 4- bis 8-Bit-Quantisierung, und es ist viel zu schwer herauszufinden, wie viel man bei 4 Bit und 6 Bit tatsächlich verliert.
    • Ich bin verwirrt: Ist das Unsloth-Modell ungefähr 600 MB groß und Googles Version 7 GB?
  • Es ist beeindruckend, wie schnell sich das Gemma-Ökosystem allein in dieser Woche entwickelt hat.
    Gemma 12B, Multi-Token-Prediction und offizielle quantisierte Modelle sind erschienen, und es wirkt, als würde Google diesen Release-Strom wirklich mit Nachdruck vorantreiben, was spannend ist.

  • Es ist Freitag direkt vor der WWDC, und auffällig ist, dass Apple angeblich eine „verbesserte“ Siri auf Basis eines Google-Modells vorstellen will.
    Im Moment könnte es eine abgeschottete Partnerschaft sein, aber möglicherweise veröffentlicht Google auch einfach vorab das Modell, das Apple nächste Woche demonstrieren wird.
    Keine gesicherte Information, nur Spekulation.

  • Ich habe mit ollama hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 auf einem Notebook mit AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB und 14 GB RAM ausprobiert, und es ist schneller als erwartet.

  • Es ist etwas seltsam, zuerst Gemma 4 12B zu veröffentlichen (https://news.ycombinator.com/item?id=48385906) und dann ein paar Tage später das offizielle Q4_0 Gemma 4 12B nachzureichen.
    Trotzdem ist es gut, dass dieser Beitrag den erwarteten VRAM-Verbrauch von Q4_0 Gemma 4 12B mit 6,7 GB angibt; das passt zwar zu Googles Aussage, dass es bequem in 16 GB passt, bestätigt aber letztlich auch, dass damit nur die quantisierte Version gemeint sein kann.
    In diesem Zusammenhang steht in Googles neuer Edge Gallery für macOS ausdrücklich, dass Gemma 4 12B auf 16-GB-Maschinen wegen zu wenig RAM nicht unterstützt wird. Wenn man sich jedoch den hier genannten erwarteten VRAM-Bedarf ansieht, sollte die Q4_0-Variante eindeutig passen, also muss Google das korrigieren.

    • Ich verstehe nicht ganz, warum mehrere Releases seltsam sein sollen.
      Ich finde es besser, Modelle und Varianten zu veröffentlichen, sobald sie bereit sind, statt alles zurückzuhalten, bis wirklich alles gleichzeitig fertig ist.
      Q4_0 ist nicht einfach eine bloß quantisierte Version von Gemma 4 12B, sondern ein Checkpoint mit Quantization-Aware Training.
    • Wenn ich es richtig verstanden habe, sind 4Q und QAT 4Q nicht dasselbe.
  • Google Pixel Intelligence könnte Apple Intelligence schlagen.

  • Dass man ein 12B-Modell mit 8 GB VRAM ausführen kann, ist ein großer Wandel.
    Es ist erstaunlich, wie schnell sich kleine lokale Modelle weiterentwickeln.

  • Ich habe Gemma 4 E2B Unsloth 4Q ziemlich gut zum Laufen gebracht: https://youtube.com/shorts/XLsAnz5aAAI
    Das E4B-Modell passt nicht auf die TPU meines Smartphones und wird deshalb in den RAM ausgelagert, daher freue ich mich, wenn die QAT-Version eine bessere Genauigkeit bringt.

    • Mich würde interessieren, wie du damit zu nützlichen Ergebnissen gekommen bist.
      Wir fanden schon das nicht quantisierte E2B-Modell bei den simpelsten realen Klassifizierungsaufgaben völlig unbrauchbar.
    • Mich würde interessieren, woran du erkannt hast, ob es auf der TPU läuft oder in den RAM ausgelagert wird.
      Ich würde das auch gern auf meinem Pixel testen.