3 Punkte von GN⁺ 1 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Google hat nur wenige Wochen nach der Veröffentlichung von Gemma 4 die Marke von 60 Millionen Downloads überschritten und einen Multi-Token-Prediction-(MTP)-Drafter für die Gemma-4-Familie vorgestellt
  • Der MTP-Drafter ist eine spezialisierte Architektur für speculative decoding, die die Inferenzgeschwindigkeit ohne Einbußen bei Ausgabequalität oder Inferenzlogik um bis zu das 3-Fache erhöht, und wurde auf Hardware mit LiteRT-LM, MLX, Hugging Face Transformers und vLLM getestet
  • Standard-LLM-Inferenz leidet unter einem starken Engpass bei der Speicherbandbreite, weil für die Erzeugung eines einzelnen Tokens Milliarden von Parametern aus dem VRAM zu den Recheneinheiten bewegt werden müssen; MTP lässt stattdessen einen leichten Drafter mehrere zukünftige Tokens vorschlagen, die das Zielmodell parallel validiert
  • Wenn das Zielmodell den Entwurfs-Tokens zustimmt, übernimmt es die gesamte Sequenz in einem einzigen Forward-Pass und erzeugt zusätzlich noch ein weiteres Token, sodass Anwendungen typischerweise in der Zeit für ein einzelnes Token die Entwurfssequenz plus ein zusätzliches Token ausgeben können
  • Der MTP-Drafter teilt sich die Aktivierungen des Zielmodells und den KV-Cache, nutzt für die Edge-Modelle E2B und E4B effizientes Embedder-Clustering, und die Gewichte sind unter Apache 2.0 auf Hugging Face und Kaggle verfügbar

Warum speculative decoding nötig ist

  • Standard-LLM-Inferenz ist an die Speicherbandbreite gebunden, was zu einem hohen Latenz-Engpass führt
  • Prozessoren verbringen den Großteil ihrer Zeit damit, für die Erzeugung eines einzelnen Tokens Milliarden von Parametern aus dem VRAM in die Recheneinheiten zu verschieben
  • Diese Struktur führt besonders auf Consumer-Hardware dazu, dass Rechenressourcen nicht vollständig genutzt werden und die Latenz steigt
  • Speculative decoding trennt Token-Erzeugung und Validierung
  • Dabei wird ein schweres Zielmodell, zum Beispiel Gemma 4 31B, mit einem leichten Drafter, dem MTP-Modell, kombiniert, das freie Rechenressourcen nutzt, um mehrere zukünftige Tokens gleichzeitig vorherzusagen
  • Der Drafter schlägt mehrere Tokens in kürzerer Zeit vor, als das Zielmodell für die Verarbeitung eines einzelnen Tokens benötigt, und das Zielmodell validiert die vorgeschlagenen Tokens parallel

So funktioniert MTP

  • Standardmäßige große Sprachmodelle erzeugen Text autoregressiv und produzieren immer genau ein Token gleichzeitig
  • Dieses Verfahren investiert dieselbe Rechenmenge sowohl in eine einfache Fortsetzung wie nach „Actions speak louder than…“ mit „words“ als auch in das Lösen komplexer Logikrätsel
  • MTP reduziert diese Ineffizienz mithilfe von speculative decoding, das Google-Forschende in Fast Inference from Transformers via Speculative Decoding eingeführt haben
  • Wenn das Zielmodell den Entwurfs-Tokens zustimmt, übernimmt es die gesamte Sequenz in einem einzigen Forward-Pass, und das Zielmodell selbst erzeugt gleichzeitig noch ein zusätzliches Token
  • Anwendungen können typischerweise in der Zeit, die sonst für die Erzeugung eines einzelnen Tokens nötig ist, die gesamte Entwurfssequenz plus ein weiteres Token ausgeben

Leistungsvorteile für Entwickler

  • Für Entwickler ist die Inferenzgeschwindigkeit oft ein zentraler Engpass bei Produktionsbereitstellungen
  • Bei autonomen Agenten, Coding-Assistenten und reaktiven mobilen Anwendungen, die vollständig on-device laufen und schnelle mehrstufige Planung benötigen, zählt selbst Latenz im Millisekundenbereich
  • In Kombination mit dem passenden Drafter bieten Gemma-4-Modelle folgende Vorteile
  • Bessere Reaktionsfähigkeit

    • Die Latenz bei nahezu Echtzeit-Chats, immersiven Sprach-Anwendungen und agentischen Workflows lässt sich deutlich reduzieren
  • Schnellere lokale Entwicklung

    • 26B-MoE- und 31B-Dense-Modelle laufen auf PCs und Consumer-GPUs schneller und unterstützen damit komplexe Offline-Coding- und agentische Workflows
  • Höhere On-Device-Performance

    • E2B- und E4B-Modelle geben auf Edge-Geräten schneller aus und können so helfen, den Batterieverbrauch des Geräts zu senken
  • Keine Qualitätsverluste

    • Da das Basismodell Gemma 4 die finale Validierung beibehält, liefert es dieselbe Inferenz- und Genauigkeitsqualität deutlich schneller
    • Ein Beispiel mit Gemma 4 26B auf einer NVIDIA RTX PRO 6000 vergleicht die Tokens pro Sekunde zwischen Standard-Inferenz und MTP-Drafter und zeigt bei gleicher Ausgabequalität etwa halbierte Latenz
    • Das Vergleichsvideo kann heruntergeladen werden

Interne Optimierungen des MTP-Drafters

  • Um den MTP-Drafter schnell und präzise zu machen, wurden mehrere Architekturverbesserungen umgesetzt
  • Das Entwurfsmodell nutzt die Aktivierungen des Zielmodells direkt und teilt sich dessen KV-Cache
  • Durch das Teilen des KV-Caches wird keine Zeit darauf verschwendet, Kontext erneut zu berechnen, den das große Modell bereits verarbeitet hat
  • Bei den Edge-Modellen E2B und E4B wird die finale Logit-Berechnung zu einem großen Engpass, daher wurde im Embedder eine effiziente Clustering-Technik implementiert, um die Generierung zu beschleunigen
  • Es wurden auch hardwarespezifische Optimierungen untersucht
  • Auf Apple Silicon hat das 26B-mixture-of-experts-Modell bei Batch-Größe 1 besondere Routing-Herausforderungen, doch bei gleichzeitiger Verarbeitung mehrerer Anfragen sind lokal Geschwindigkeitssteigerungen von bis zu etwa dem 2,2-Fachen möglich
  • Beispielhafte Batch-Größen liegen bei 4 bis 8, und auch auf einer NVIDIA A100 zeigen sich ähnliche Verbesserungen bei steigender Batch-Größe
  • Die visuelle Architektur, das Teilen des KV-Caches und die Funktionsweise des effizienten Embedders werden in der technischen Detailerklärung gezeigt

Nutzung und Verfügbarkeit

  • Der MTP-Drafter für die Gemma-4-Familie wird wie Gemma 4 selbst unter der Open-Source-Lizenz Apache 2.0 bereitgestellt
  • Wie MTP zusammen mit Gemma 4 verwendet wird, ist in der Dokumentation beschrieben
  • Die Modellgewichte können auf Hugging Face und Kaggle heruntergeladen werden
  • Schnellere Inferenz lässt sich mit transformers, MLX, vLLM, SGLang und Ollama ausprobieren
  • In der Google AI Edge Gallery kann es direkt unter Android oder iOS getestet werden
  • Google hofft, dass dieser Geschwindigkeitsschub die Entwicklung im Gemma-Ökosystem Gemmaverse beschleunigt

1 Kommentare

 
GN⁺ 1 시간 전
Hacker-News-Kommentare
  • Gemma und Gemini verwenden im Vergleich zu anderen Modellen deutlich weniger Ausgabetokens und kommen dabei den Spitzenwerten in Benchmarks ziemlich nahe
    Vergleicht man Gemma mit Qwen, ist Qwen zwar etwas besser, braucht für eine Aufgabe aber 22 Minuten, während Gemma denselben Prompt oft in 4 Minuten beendet, selbst wenn dabei die Button-Ausrichtung falsch ist
    Oberflächlich betrachtet liegt Gemma vielleicht 5–10 % hinter den führenden Open-Source-Modellen, braucht dafür aber nur 1/10 der Zeit

    • Gefühlt stößt man mit dem Gemini-Basistarif für 15 Dollar im Monat selbst beim ganztägigen Coden nicht an Limits
      Ich hatte nie das Gefühl, aufrüsten zu müssen, so wie andere bei Claude oder Codex auf 100-Dollar-Pläne wechseln
      Allerdings wurde Gemini im letzten Jahr ein paar Mal schwächer und die Rate Limits wurden strenger, daher ist unklar, ob es dauerhaft so gut bleibt
    • Im Dwarkesh-Podcast sagte Dylan Patel von SemiAnalysis, dass Google dank deutlich größerer Rechenressourcen und Zugang zu TPUs größere Modelle als die Konkurrenz betreiben kann
      Da größere Modelle pro Einheit Intelligenz meist weniger Tokens verbrauchen, könnte das den Unterschied beim Tokenverbrauch erklären
    • Weil Gemma schnell ist, läuft es auch auf GPUs, die eigentlich zu klein dafür wären
      Ich habe es auf einer 4070 ausprobiert; die Ausgabe war nicht extrem schnell, aber brauchbar
      Für komplexe Aufgaben habe ich es noch nicht getestet, dort könnte es anders aussehen
    • Im Moment ist Claude sehr angesagt, aber ich hatte mit Gemini weder Probleme noch das Bedürfnis zu wechseln
      Nach der Google I/O werden vielleicht mehr Leute merken, wie gut Gemini ist
    • Das stimmt, aber fairerweise müsste man die kumulative Tokenausgabe aufsummieren
      Wenn es ein Alignment-Problem gibt, muss man zum Beheben noch einmal Eingabe- und Ausgabetokens verbrauchen
  • Für llama.cpp wird MTP-Support hinzugefügt, zumindest für Qwen-Modelle ist das bereits in Arbeit (https://github.com/ggml-org/llama.cpp/pull/20533)
    Gemma 4 dürfte bald folgen
    Wie stark sich Qualität und Geschwindigkeit lokaler bzw. selbstgehosteter Modelle in den letzten Monaten verbessert haben, ist bemerkenswert

    • Es gibt einen neueren PR, der wohl bald gemergt wird: https://github.com/ggml-org/llama.cpp/pull/22673
    • Vor ein paar Tagen bin ich für den privaten Gebrauch wieder von Qwen3.6 zu Gemma 4 zurückgewechselt, und die 26B-Version des Letzteren lieferte im Schnitt bessere Ergebnisse als die 27B-Version des Ersteren
      Für jemanden, der schon lange lokale Modelle betreibt, ist das wirklich eine spannende Zeit
    • Auch an der DFlash-Integration wächst das Interesse: https://github.com/ggml-org/llama.cpp/issues/21978
      Ich bin gespannt, wie sich das im Vergleich zu MTP schlägt
    • Ich würde das auch gern in oMLX sehen
      Das war ein ziemlich gutes Tool
    • Ich weiß nicht genau, an welcher Stelle im Inference-Stack MTP-Inferenz sitzt, aber mich würde interessieren, ob jemand weiß, ob das im MLX-Ökosystem umsetzbar ist
  • Google trägt die westliche Open-Source-Modell-Landschaft fast im Alleingang
    Gemma 4 31B ist großartig
    Allerdings ist es ziemlich schmerzhaft, die beste Version inklusive Vision-Funktionen und dem bald erscheinenden Drafter in 24 GB VRAM unterzubringen
    In meinem Build kann ich keine weiteren GPUs hinzufügen, und für maximale Leistung müsste ich wohl entweder noch eine 4090 kaufen, was zu teuer ist, oder das System komplett ersetzen

    • Mit --no-mmproj-offload in llama.cpp kann man den multimodalen Projektor, also den Teil für Audio-, Bild- und PDF-Verständnis, im System-RAM halten
      Dann gibt es dafür natürlich keine GPU-Beschleunigung, aber es spart VRAM
    • Trotzdem halte ich Qwen für besser als Gemma
      Man kann es je nach Aufgabe stärker abstimmen und so wählen, ob man Denken und Genauigkeit oder Inferenzgeschwindigkeit priorisiert
  • Wenn ich einem Computer beim Schreiben zusehe, erinnert mich das an die Zeit, als man sich noch per Modem in BBS-Systeme einwählte
    Das fühlt sich an wie der Sprung von 300 Baud auf 1200 Baud: eine große Verbesserung, aber immer noch ziemlich langsam, und irgendwann werden wir uns wohl fragen, wie wir das überhaupt ertragen konnten

    • Der aktuelle Stand fühlt sich wirklich wie das Einwahlzeitalter an, und ich frage mich ständig, wie das kommende „Breitband“-Zeitalter aussehen wird
      Tokens beim Herausfließen zuzusehen erinnert an JPEGs, die zeilenweise Pixel für Pixel laden, und auch an all die Lade- und Verbindungsanimationen, die Apps früher hatten, bevor alles schnell genug war
      Die Arbeit von Cerebras und Taalas liefert interessante Hinweise darauf, was in diese Richtung möglich ist
      Es macht auch Spaß, sich vorzustellen, was möglich wäre, wenn man selbst modernste Modelle zu sehr niedrigen Kosten mit einer Million Tokens pro Sekunde nutzen könnte
    • Die Assoziation mit dem Einwahlzeitalter passt schon, aber eher 4800 Baud als 300 zu 1200
      Claude hat als Vergleich Modem gegen Claude Folgendes berechnet: bei 2368 Zeichen sind 300 Baud 1 Minute 19 Sekunden, 1200 Baud 19,7 Sekunden, 2400 Baud 9,9 Sekunden, 14,4K 1,6 Sekunden, 33,6K 705 ms, 56K 447 ms und Claude 7,9 Sekunden
    • Irgendein Startup, das hier gepostet wurde, hat maßgeschneiderte Hardware gebaut, damit KI sofort antwortet
      Das lag im Bereich von mehreren Tausend Tokens pro Sekunde
  • Googles Strategie scheint etwas anders zu sein als die der anderen Frontier-Anbieter
    Es wirkt, als konzentriere man sich stärker auf Performance-Effizienz pro Recheneinsatz als auf reine Spitzenleistung, wodurch Gemini nach außen hin vielleicht zurückgefallen aussieht
    Andere Anbieter stoßen an Kapazitätsgrenzen und auch ihre Fähigkeit, Inferenzkosten zu subventionieren, hat Grenzen
    Googles Strategie scheint darauf ausgerichtet zu sein, diese Modelle für bereits bestehende Milliarden von Nutzern zu skalieren und auszurollen

    • Ich finde nicht, dass Gemini zurückliegt
      Eher wirkt es wie eine andere Art von Intelligenz als die neueren GPT-5- und Claude-Familien
      Letztere fokussieren sich zunehmend auf Produktivität und Arbeitsautomatisierung und sind für lange, agentische, selbstkorrigierende Inferenzschleifen optimiert
      Gemini wirkt wie ein viel klügeres Basismodell, besonders im Deep-Think-Modus, wo sich die Intuition deutlich tiefer anfühlt, aber für langreichweitige selbstkorrigierende Agentenloops ist es nicht ganz so gut
      In den letzten Monaten sah mein Workflow so aus: Gemini für kreative Sprünge und Einsichten, Codex, Claude und GPT-5.5 Pro für repetitive oder präzise Aufgaben
    • Ich habe den Eindruck, dass sich die Strategien aller in diese Richtung verschieben
  • Ich hatte lokale Modelle eine Weile pausiert und habe kürzlich das 26B-A4B-Modell auf einer RTX 3090 mit vLLM in 4 Bit eingerichtet; von der Geschwindigkeit und Qualität, die man für unter 1000 Dollar Investition bekommt, war ich völlig überrascht
    Zuerst habe ich es mit Qwen probiert, aber das war instabil und die Denkspuren waren absurd lang

    • Einige der frühen quantisierten Builds von qwen3.6 waren kaputt
      Es ist immer noch etwas heikel, aber mit ein bisschen Nacharbeit wirklich beeindruckend
      Lokale Modelle sind die Zukunft, und das ist großartig
    • Mit turboquant / Q4 passt es auch auf eine 3060 und erreicht 40 T/s, was auf einer Karte für etwa 200 Dollar eine ordentliche Geschwindigkeit ist
    • Das A4B-Modell ist extrem schnell und sehr gut für allgemeine Anfragen
      Bei Coding-Aufgaben ist es klar schlechter als Qwen 3.6, was eher dafür spricht, wie stark die Qwen-Modelle sind
    • Auch das 31B ist für ein dichtes Modell überraschend schnell
      Auf meinem Rechner ist tg im Vergleich zu anderen 30B-Modellen mindestens doppelt so schnell wie erwartet, vermutlich wegen Hybrid Attention
      Die Eingabeverarbeitung ist allerdings etwas langsamer
  • Ich frage mich, ob es jemand geschafft hat, das in LM Studio zum Laufen zu bringen
    Es gibt zwar eine Option in der UI, aber sie scheint nicht aktiviert zu werden

    • In mlx[1] oder llama.cpp[2] ist es noch nicht implementiert, deshalb könnte es etwas dauern
      [1] https://github.com/ml-explore/mlx-lm/pull/990
      [2] https://github.com/ggml-org/llama.cpp/pull/22673
    • Doch, es funktioniert
      Da es keine kleinen Modelle gibt, sollte man prüfen, ob man nicht versehentlich ein sparsames Gemma-Modell verwendet
      Und ich habe alle Bildmodelle aus dem Workspace entfernt
    • In der Regel mag LM Studio es nicht, wenn im Ordner mmproj-Dateien liegen
      Manchmal taucht es auf, wenn man diese löscht
      Diese Dateien scheinen irgendwie mit Vision-Funktionen verbunden zu sein und speculative decoding zu blockieren, aber frag mich nicht warum
      Bei Gemma funktionierte speculative decoding über den llama-server-Weg besser als in LM Studio
    • Mit anderen Modellen habe ich es schon zum Laufen gebracht
      Meist müssen Anbieter, Quantisierung usw. exakt zusammenpassen
      Es kann etwas dauern, bis man ein passendes Set gefunden hat
  • In meinen Tests brachte das Gemma-4-31B-Modell bei Coding-Aufgaben den größten Geschwindigkeitsschub mit Ollamas MLX-Runner, ungefähr um den Faktor 2
    Allerdings senkt Quantisierung die Akzeptanzrate stark, daher braucht man einen ziemlich leistungsstarken Mac
    Die drei anderen kleineren Modelle waren nicht so gut, weil die Zeit zur Verifikation des Draft-Modells den Geschwindigkeitsgewinn größtenteils wieder aufgefressen hat
    Ich optimiere noch, um zu sehen, ob sich mehr herausholen lässt
    Man kann es in Ollama 0.23.1 mit ollama run gemma4:31b-coding-mtp-bf16 ausprobieren

  • Sobald das in llama.cpp gemergt ist, will ich es unbedingt testen
    In meinem Setup ist Gemma 4 26B-A4B etwa dreimal schneller als Qwen3.6-35B-A3B, deshalb klingt schon allein die Vorstellung von zusätzlich 1,5-facher Beschleunigung verlockend
    Ich habe auch Draft-Modelle ausprobiert, aber mit begrenztem Erfolg; selbst kleinere 3B-Draft-Modelle und das dichte 14B-Ministral-Modell verursachten schon zu viel Overhead

    • Mit einer 5090 in vLLM bekommt man mit AWQ-4-Bit-Quantisierung und MTP-speculative decoding 120–180 TPS
      Gemma4 26B liegt mit derselben Quantisierung bei über 200 TPS
      Wichtig ist auch, dass Qwen eine extrem geringe Inferenz-Effizienz hat
      Die Chain of Thought ist im Schnitt etwa dreimal so lang wie bei Gemma
  • Ich frage mich, ob das so etwas wie Branch Prediction in Betriebssystemen ist
    Nur dass die Wahrscheinlichkeiten im Modell selbst eingebaut sind, also in einer viel verlässlicheren Form

    • Ähnliche Idee, aber mit einem besseren Fehlermodus
      Eine Fehlvorhersage bei Branch Prediction verbrennt Zyklen, während ein schlechter Tipp hier meist nur bedeutet, dass man keine Bonustokens bekommt
      https://arxiv.org/abs/2211.17192