Gemma 4 12B: Multimodales Modell ohne integrierten Encoder

(blog.google)

10 Punkte von GN⁺ 2026-06-04 | 5 Kommentare | Auf WhatsApp teilen

Gemma 4 12B ist ein mittelgroßes Modell, das dafür entwickelt wurde, agentische multimodale Intelligenz auf Laptops auszuführen, und schließt die Lücke zwischen dem Edge-freundlichen E4B und dem fortschrittlicheren 26B MoE
Mit einer encoderlosen integrierten Architektur werden Bild- und Audioeingaben ohne separaten multimodalen Encoder direkt in das LLM-Backbone eingespeist, um Latenz und Speicherverbrauch zu senken
Die Leistung in Standard-Benchmarks liegt nahe beim größeren 26B MoE-Modell, während der gesamte Speicherbedarf weniger als halb so groß ist; das Modell kann lokal auf Consumer-Laptops mit 16 GB RAM bzw. VRAM/integrated memory ausgeführt werden
Gemma 4 12B ist das erste mittelgroße Modell der Gemma-Familie mit nativem Audio-Input und zielt mit Multi-Token Prediction drafters auf geringere Latenz ab
Die Gemma-4-Modelle wurden bereits mehr als 150 Millionen Mal heruntergeladen, und Gemma 4 12B erweitert mit Apache-2.0-Lizenz sowie Unterstützung für wichtige Developer-Tools und Deployment-Pfade die Möglichkeiten für die Entwicklung lokaler multimodaler Agenten

Zentrale Merkmale

Gemma 4 12B wurde dafür entwickelt, hochleistungsfähige multimodale Intelligenz direkt auf Laptops zu bringen, und kombiniert Mobile-First-Effizienz mit fortgeschrittenem Reasoning
Es positioniert sich zwischen dem Edge-freundlichen E4B und dem fortschrittlicheren 26B Mixture of Experts (MoE) und bündelt starke Fähigkeiten in einem reduzierten Memory-Footprint
Zu den wichtigsten Merkmalen gehören:
- eine integrierte Architektur, die Vision- und Audio-Input ohne multimodalen Encoder direkt an das LLM-Backbone weitergibt
- Benchmark-Leistung nahe am 26B-Modell sowie Unterstützung für mehrstufiges Reasoning und agentische Workflows
- Laptop-Tauglichkeit mit lokalem Betrieb allein mit 16 GB VRAM oder Unified Memory
- Apache-2.0-Lizenz und Unterstützung durch das Developer-Ökosystem
- geringere Latenz durch Multi-Token Prediction (MTP) drafters

Encoderlose multimodale Verarbeitung

Herkömmliche multimodale Modelle wandeln Bilder und Audio in der Regel zunächst mit separaten Encodern um und übergeben diese Repräsentationen dann an das Sprachmodell
Gemma 4 12B wurde darauf trainiert, Audio- und Vision-Input direkt zu integrieren, um zu vermeiden, dass getrennte Encoder Latenz und Speicherverbrauch erhöhen
Bei der Bildverarbeitung ersetzt es den Vision-Encoder von Gemma 4 durch ein leichtgewichtiges Embedding-Modul aus einer einzelnen Matrixmultiplikation, Positionsembeddings und Normalisierung, sodass das LLM-Backbone die visuelle Verarbeitung übernimmt
Bei der Audioverarbeitung entfällt der Audio-Encoder vollständig, und das rohe Audiosignal wird in denselben dimensionalen Raum wie Text-Token projiziert
Eine ausführlichere architektonische Beschreibung für Developer findet sich im Gemma 4 12B Developer Guide

Erste Schritte

Mit wenigen Klicks lässt sich das Modell in LM Studio, Ollama, der Google AI Edge Gallery App, der App Google AI Edge Eloquent und der LiteRT-LM CLI ausprobieren
Vortrainierte und instruction-tuned Checkpoints können von Hugging Face und Kaggle heruntergeladen werden
Für Integration und Training stehen die developer documentation und das quick start notebook zur Verfügung
Lokale Inferenz-Pipelines lassen sich mit Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM umsetzen, und mit Unsloth ist effizientes Fine-Tuning möglich
Das offizielle Skills Repository ist eine Skill-Bibliothek, die dafür ausgelegt ist, dass Agenten mit den neuesten Gemma-Funktionen gebaut werden können
Produktionsendpunkte können auf Google Cloud über Gemini Enterprise Agent Platform Model Garden, Cloud Run und GKE bereitgestellt werden

5 Kommentare

hmmhmmhm 2026-06-04

Im Vergleich zu gemma4 26b a4b ist die Geschwindigkeit etwas enttäuschend, hm ... Ob davon wohl auch eine a4b-Version erscheinen könnte?

loblue 2026-06-04

Ich sollte das mal auf meinem MacBook M1 mit 32 GB RAM ausprobieren. Bei 12B dürfte das ganz gut passen.

kaydash 2026-06-04

Das ist doch nicht gerade erst erschienen – warum wird es jetzt erwähnt?

winterjung 2026-06-04

Bisher gab es nur das e-Modell sowie 26b und 31b, und das Gemma-4-12b-Modell ist dieses Mal neu erschienen.

GN⁺ 2026-06-04

Hacker-News-Kommentare

Ich habe ein Q4-quantisiertes Modell mit llama.cpp laufen lassen und es in meinen selbstgebauten Minesweeper-Vibe-Coding-Benchmark gesteckt: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
Das Ergebnis war ordentlich, aber ich musste ein paar Mal manuell seltsame, kleine Syntaxfehler beheben, etwa eine zusätzliche schließende Klammer oder Versuche, Funktionsdefinitionen mit Kommas zu trennen
Mit diesem Vorbehalt ist es als lokales Coding-Modell solide, und rein nach der Ausgabe ungefähr auf dem Niveau von GPT-4.1 von vor 14 Monaten: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
Auf einer Consumer-Karte mit 12 GB VRAM kam es als 4-Bit-GGUF auf 5 Token/s; für interaktives Coding ist das langsam, aber das Modell ist ziemlich brauchbar
Interessant ist, dass ein 12-Milliarden-Parameter-Modell bei einem bestimmten Benchmark eine Coding-Leistung, die vor etwas mehr als einem Jahr als GPT-4.1-Niveau galt, fast erreicht
Liste der verschiedenen getesteten Modelle: https://senko.net/vibecode-bench/
- Es wurde wahrscheinlich nicht als Coding-Modell trainiert. Es hat Audio- und Vision-Eingaben, ist nur 12B groß, und in der Ankündigung wird Coding nirgends erwähnt
  Die allgemeine Coding-Leistung dürfte niedriger sein als bei anderen kleinen Modellen wie Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B oder gpt-oss-20b
  Auf einem Laptop mit 16 GB ist Qwen 3.5 9B klar die beste Wahl, und an der Spitze der kleinen Coding-Modelle steht Gemma 4 31B, braucht als Dense-Modell aber etwa 48 GB Unified Memory, wenn man den gesamten Kontext nutzen will
- Wenn es auf einer 12-GB-VRAM-Karte 5 Token/s ausgibt, sieht das nach Hybridmodus aus, also einer Mischung aus CPU und System-RAM
  Diese Geschwindigkeit entspricht bei 4 Bit ungefähr dem, was man bei dieser Modellgröße mit DDR4-RAM-Bandbreite erwarten würde, und mit einer 12-GB-Consumer-Nvidia-GPU wie RTX 2080 oder RTX 3060 sollten im llama.cpp-CUDA-Backend eher mehr als 20 Token/s drin sein
- Der größte Gewinn beim Coding scheint Reasoning-Fähigkeit gewesen zu sein. Daher kann ein kleines Modell bei der Coding-Leistung mit GPT-4.1 mithalten, während das größere GPT-4.1 beim allgemeinen Weltwissen wahrscheinlich weiterhin vorne liegt
- Ich frage mich, ob sich die Syntaxprobleme mit Finetuning oder anderen Parameteranpassungen beheben lassen. Solche Fehler sind ziemlich frustrierend
Die große Geschichte hier ist die encoderlose Architektur, aber ich habe sie noch nicht vollständig verstanden
Die Erklärung „Der Vision-Encoder von Gemma 4 wurde durch ein leichtgewichtiges Embedding-Modul ersetzt, das aus einer einzelnen Matrixmultiplikation, Positions-Embeddings und Normalisierung besteht“ ist technisch gesehen immer noch Encoding und scheint zu bedeuten, dass kein dediziertes Modell wie SigLIP verwendet wird
Im Entwicklerleitfaden wird zusätzlich von einer 35M-Schicht gesprochen, aber ich frage mich, ob das robust genug ist: https://developers.googleblog.com/gemma-4-12b-the-developer-...
Die Aussage „läuft lokal auf einem Consumer-Laptop mit 16 GB RAM“ scheint Quantisierung vorauszusetzen und kann angesichts des Qualitätsverlusts etwas irreführend sein
- Auf der Entwicklerseite ist ein guter Artikel eingebettet, der die encoderlose Architektur erklärt: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
- Das ist im Grunde Early Fusion
  FAIR hat das schon vor zwei Jahren gemacht: https://arxiv.org/abs/2405.09818
  Ich habe seit damals darauf gewartet, dass so ein Modell öffentlich erscheint; der ärgerliche Punkt ist, dass Chameleon nach demselben Prinzip sogar multimodale Ausgaben konnte, dieses Modell aber nur Eingaben unterstützt
  Ich frage mich, wie das Pretraining ohne multimodale Ausgaben gemacht wurde und ob die Bildausgabe nicht unterstützt wird oder herausgeschnitten wurde
- Im allgemeinen Sinn ist „Encoding“ korrekt, aber hier scheint gemeint zu sein, dass es kein Encoder-Neuronales Netz gibt
- Die eigentliche große Geschichte ist meiner Meinung nach die Gallery-App: https://developers.google.com/edge/gallery
  Es gibt ziemlich viele Leute mit einem 16-GB-Mac, auch unter Journalisten, und jeder kann die App herunterladen, das Modell installieren und direkt damit herumspielen
  Journalisten sollten jetzt anfangen, Fragen zu OpenAIs Umsatzprognosen im Consumer-Geschäft zu stellen
  Ich bin bei AI ziemlich skeptisch, aber um ein Skeptiker mit echtem Verständnis zu sein, habe ich lokal mit Agent-Workflows und CAD-to-image-Generierung experimentiert, und das Gemma-26B-Modell gefällt mir ziemlich gut
  Ich nutze es, um ohne Cloud-Abhängigkeit Grundlagen zu lernen und mich in OpenCode einzuarbeiten; es schreibt auch ziemlich gut Code und hilft mir, in meinem eigenen Tempo zu lernen
  Wenn dieses 12B-Modell auch nur zur Hälfte so gut ist wie beworben, stellt es zumindest kurzfristig das Consumer-Cloud-Geschäftsmodell infrage
  Es ist unklar, ob diese App MTP drafter verwendet; auf Gemma habe ich es noch nicht direkt zum Laufen gebracht, aber die eingebaute MTP-Unterstützung von Qwen 3.6 war in LM Studio hervorragend
- Bei 12B wären das bei 8 Bit/Parameter 12 GB, fast ohne Verlust, und bei 4 Bit/Parameter 6 GB, was im Allgemeinen als „ziemlich nah dran“ gilt
  Bevor man sich zu sehr an der Quantisierung aufhängt, sollte man sich erst ansehen, wie gut das Basismodell überhaupt ist
Wir betreten jetzt ein geschlossenes Kreislaufspiel. Google braucht niemand anderen, um seine eigenen Modelle zu beschleunigen, und genau das liegt nahe an seinem Kerngeschäft
Es ist erstaunlich und zugleich nicht erstaunlich, dass diese Effizienzsteigerungen weiterentwickelt werden. Wie bei der Entwicklung von Silizium und CPU-Architekturen wurde immer weiter geschrumpft und zugleich die Leistung gesteigert, und AI dürfte mit der Zeit wohl 100-mal effizienter werden
Irgendwann wird es Grenzen geben, aber die nächsten 30 Jahre dürften mehr Fortschritt bringen als die letzten 30, und wir könnten in einer futuristischen Blade-Runner-artigen Welt leben, in der Geneditierung alternde Zellen und Organe repariert und Krebs heilt

Nach unserer Lebenszeit werden Menschen wohl stabil ihre Mobilität bis 125 erhalten und leben, und am Ende werden wir uns sogar mit einer Lebensspanne von 1000 Jahren beschäftigen müssen.
Wenn man auf 30 Jahre zurückblickt und 30 Jahre nach vorn, wird sich wohl auf absurd wirkende Weise alles verändert haben. Möge Gott uns beschützen.

Es ist jetzt eindeutig eine interessante Zeit, aber aus Sicht des Fortschritts an der Spitze gibt es noch viele niedrig hängende Früchte, die man pflücken kann.
Allerdings gibt es eine Untergrenze dafür, wie viel „Wissen“ sich in eine kleine Zahl von Parametern packen lässt.
So ähnlich muss es sich wohl in den frühen Tagen von Radio, Luftfahrt oder sogar den ersten Mikrocomputern angefühlt haben.
Ich habe mich dafür entschieden, die Optimierung der Lebensspanne über Karriere oder Hobbys zu stellen. Ich möchte die Zukunft sehen, und dieser AI-Trend ist wirklich faszinierend.
Nein, so ist es nicht.
Große Modelle liegen weiterhin deutlich vorn, und selbst Gemma 31B ist insgesamt besser als 12B, aber man sollte sich nicht einreden, damit fast bei großen Modellen angekommen zu sein.
Es gibt klar Spielraum für Optimierung, aber bei komplexen Aufgaben braucht man für Genauigkeit kleine, sichtbare Gradienten, die im Training erfasst und bei der Inferenz weiterverfolgt werden können.
Wenn man zum Beispiel anweist, keinen Code zu schreiben, und dann eine Coding-Frage stellt, schreibt Gemma immer noch Code, während Gemini oder Claude diese Nuance erfassen und Anweisungen besser befolgen.
Ich frage mich nach dem geschäftlichen Grund, warum Google offene Modelle veröffentlicht. Ich bin für solche Veröffentlichungen dankbar, aber ich möchte verstehen, wie das ins große Ganze eines gewinnorientierten Unternehmens passt.
Es wirkt, als würde man Wettbewerbern dabei helfen, auf selbst entwickelter neuer Technologie aufzubauen.
Ich frage mich, ob es bloß Wohlwollen oder Marketing ist oder ob dahinter eine Strategie steckt, die ich übersehe.
- Ein großer Grund, warum Frontier-Labore bei der Inferenz 80 % Bruttomarge erzielen können, ist, dass sie die knappe Ressource der Frontier-Modelle kontrollieren.
  Wenn Inferenz populär und wertvoll genug wird, dass diese Firmen Milliardenprofite machen, können sie diese Gewinne nutzen, um Ersatzprodukte und Plattformen zu bauen, die Google und seine Kunden voneinander abschneiden.
  Google hat bereits eines der weltweit größten Geschäfte mit 80 % Bruttomarge, und alle wollen daran teilhaben.
  Wenn Frontier-Inferenz nahezu zum Selbstkostenpreis angeboten und Modelle unterhalb der Frontier als Open Source freigegeben werden, um Modelle zur Commodity zu machen, wird es für Frontier-Labore schwerer, dauerhaft hohe Bruttomargen mit Inferenz zu erzielen.
  Das ist eine strategische Wette.
- Dieses Modell ersetzt kein eigenes kommerzielles Umsatzprodukt, aber es ermöglicht Entwicklungsaktivitäten und eröffnet Gespräche mit Unternehmen, die mit diesem Modell anfangen und dann etwas mehr wollen.
  Auch mein Unternehmen setzt derzeit voll auf mehrere Plattformprodukte, und Microsoft sagte gestern ebenfalls, das Ziel sei „Unmetered intelligence“.
  Viele Dinge werden durch kleine lokale Modelle möglich, und solche Dinge werden Teil eines Stacks, der auf anderen Ebenen Umsatz erzeugt.
- Android und Chrome brauchen On-Device-AI-Funktionen. Google kann diese Gewichte nicht so abschotten wie serverseitiges Machine Learning.
  Irgendjemand wird die Gewichte sowieso extrahieren, also ist es einfacher, sie gleich als Open Source zu veröffentlichen und zu formalisieren.
- Google ist eine der wenigen vertikal integrierten Optionen im AI-Bereich. Das Unternehmen hat Daten, Modelle, Cloud-Services, Low-Level-Silizium (TPU), interne Nutzung, Consumer-Nutzung, B2B-Nutzung und Distributionskanäle (Browser und Mobilgeräte).
  Je stärker die AI-Nutzung wächst, desto mehr profitiert Google mit, und wenn sich Menschen für Google-Lösungen entscheiden, ist das noch vorteilhafter.
  Jedes Token, das an ein Google-Modell geschickt wird, übt – ob kostenlos oder bezahlt – Druck auf Wettbewerber aus, enorme Summen auszugeben, um auf dem neuesten Stand zu bleiben.
- Als AI-Labor möchte man zwangsläufig ein Forschungsteam in diesem Bereich haben. Hier kann man am einfachsten iterieren, Verbesserungen erzielen und sie später in größere Frontier-Modelle einfließen lassen.
  Die Frage ist, ob man das Modell veröffentlicht oder nur für reine Forschung und Entwicklung nutzt.
  Da anderswo bereits Modelle ähnlicher Qualität veröffentlicht werden, ist es schwer zu sagen, dass man sich durch das Mitmachen selbst ins Bein schießt.
  Die zusätzliche Selbstkannibalisierung liegt faktisch nahe null, und der Reputationsgewinn dürfte gut die Mühe wert sein.
Die Bildverarbeitung ist miserabel. Ich habe mehrere Tests mit Qwen 3.5 0.8B gemacht, und Qwen, das nur 7 % so groß ist, hat jedes Mal gewonnen, während Gemma oft komplett falsch lag.
Ich habe ihm sogar ein einfaches Bild mit der Aufschrift „This is a test“ gegeben, und es hat 6 Minuten lang versucht, darüber nachzudenken und ist dann gescheitert, während Qwen 3.5 0.8B in weniger als einer Sekunde selbstbewusst richtig lag.
Es kann sein, dass die Q6-Quantisierung, die ich bekommen habe, kaputt war oder dass es ein Problem mit LM Studio ist, aber so oder so ist die Leistung von 0.8B im Vergleich erstaunlich.
- Es wirkt, als hätte Google stärkere oder zahlreichere Guardrails eingebaut als Alibaba, und das verwirrt kleine Modelle.
  Schon bei den Gemma3-Modellen gab es oft Fälle, in denen Beschreibungen verweigert wurden, weil angeblich Nacktheit oder sexuelle Szenen im Bild seien, und ich habe nie verstanden, was dieses Verhalten bedeuten sollte.
- Ich hatte immer das Gefühl, dass Gemma-Modelle bei Vision-Aufgaben deutlich schlechter sind als Qwen; das ist also nichts Neues.
Unabhängig von den Architekturänderungen scheint das wie eine Antwort darauf, warum in der Gemma4-Pretraining-Modellreihe zwischen 4B und 26B eine merkwürdige Lücke war.
Ein Modell, das mit etwas Kontextreserve bequem in 16 GB VRAM passt, ist ein willkommenes Upgrade.
Abgesehen von Multimedia würde mich interessieren, wie viel besser das hier ist als das auf qwen2.5 basierende 1,5-Bit-Modell von prismml.
Mich interessieren Anwendungsfälle für solche kleinen Modelle. Kann jemand, der Modelle in dieser Größenordnung regelmäßig nutzt, echte Erfahrungen teilen?
- Ich betreibe vLLM auf einem Linux-Rechner im Keller und verbinde mich per Tailscale, um kleine Modelle für verschiedene Aufgaben zu nutzen.
  Dazu gehören das Überführen gescannter Dokumente in formatierten Text, Bildunterschriften/Bildbeschreibungen und die Klassifizierung der Eignung von Inhalten (einschließlich Spam-Abwehr) sowie das Taggen von Dokumenten durch Abgleich mit passenden Wikipedia-Seiten.
  Ich nutze sie nicht wie Frontier-Modelle, sondern zerlege jeden Prompt in Mikroaufgaben mit jeweils einem klaren Ziel.
  Es gibt auch viel Glue-Code, damit der Gesamtfluss funktioniert, und solche Aufgaben habe ich schon vor dem Aufkommen von LLMs gemacht.
  Dank LLMs konnte ich komplexen Code reduzieren und Modelle ergänzen, um bessere Ergebnisse zu erzielen.
  Ich nutze lokale Modelle aus Kosten- und Kontrollgründen. Die Workstation und GPU hatte ich ohnehin schon, und die Betriebskosten bestehen nur aus Strom.
  Ich habe auch proprietäre Modelle von OpenAI und Google genutzt, aber einmal geriet ein Tool ins Wanken, weil das Modell, von dem es abhing, eingestellt wurde. Wenn man die Gewichte lokal speichert, hat man diese Sorge nicht.
- In einer selbst gebauten Diktier-App nutze ich ein lokales Modell, um Text zu glätten und Grammatik zu korrigieren. Das war sehr leicht zu bauen, und inzwischen erweitere ich es auf das Erfassen und Zusammenfassen von Besprechungsnotizen – alles on-device.
  Vor Kurzem habe ich auch eine kleine App gesehen, die Screenshots anschaut und Dateien anhand ihres Inhalts umbenennt.
  Solche kleinen Beispiele gibt es viele, und für viele Anwendungsfälle braucht man überhaupt kein Frontier-Modell.
Ich habe Gemma für die Prüfung und Kategorisierung von Online-Texten über mehrere Jahre hinweg verwendet. Dabei ging es um etwa 5 Millionen Wörter, die ich in den Foren von Open-Source-Projekten, an denen ich mitwirke, auf HN, Reddit usw. geschrieben habe, und da es meine eigenen Texte sind, konnte ich auch ohne ethische Bedenken bezüglich der Datenherkunft mit LoRA-Training experimentieren.
Derzeit nutze ich es für Websuche und Datenextraktion in einer bestimmten Branche.
Es ist intelligent genug, um in einer vorgegebenen Stadt Unternehmen dieser Branche zu finden, deren Websites zu lesen, Adressen und Telefonnummern zu extrahieren sowie Deduplizierung und Querverifikation mit anderen Quellen durchzuführen.
Gemma 4 traf bessere oder zumindest differenziertere Urteile als Gemini 2.5 Flash, und das neue Gemini 3.5 Flash ist sehr gut, aber unrealistisch teuer.
Wenn man keine extrem hohe Geschwindigkeit braucht, gewinnt selbstgehostetes Gemma 4 bei vielen Aufgaben.
Auch Qwen 3.6 27B ist beim Auffinden von Sicherheitsbugs erstaunlich gut für seine Größe. Es schlägt mehrere größere Modelle und liegt nahe bei Gemini Pro 3.1, aber Gemini 3.5 Flash ist überraschenderweise klar besser.
Es fallen nur Stromkosten an, und mein Strom ist günstig und zu 100 % erneuerbar, daher kann ich es breiter einsetzen als gehostete Modelle.
Trotzdem ist die kluge finanzielle Entscheidung derzeit noch, Tokens zu kaufen, die Anbieter fast wie subventioniert billig auf den Markt werfen.
Statt Hardware zu kaufen, um Modelle über 30GB zu betreiben, ist es aktuell vorteilhafter, mit einem 100-Dollar-Abo für Claude oder Codex die besten Modelle zu stark vergünstigten Preisen zu nutzen.
Wenn man eine Automatisierungs-API braucht, sind DeepSeek/MiMo um ein bis zwei Größenordnungen günstiger als die Spitzenmodelle von Anthropic oder OpenAI.
Ich habe etwa 4000 Dollar für zwei Inferenz-Maschinen ausgegeben; mit diesem Geld könnte man für kleine Modelle wie diese Tokens für mehrere Jahre kaufen.
Allerdings arbeite ich gern mit Hardware, daher ist das an sich schon eine Belohnung, und wenn ich auch nur einen Teil davon wieder hereinbekomme, ist das ein Bonus.
Wenn die großen Anbieter aufhören, mit subventionierten Tokens Geld zu verbrennen, und anfangen, ernsthaft zu berechnen, könnte sich die Rechnung ändern, und dann wäre es vielleicht ein Glücksfall, die Ausrüstung gekauft zu haben, bevor die RAM-Preise auf das Zwei- bis Dreifache steigen.
Wenn man nicht vorhat, die Technik zu lernen oder selbst mit Training zu experimentieren, ist es in den meisten Fällen wahrscheinlich besser, gar nicht erst zu versuchen, lokal zu betreiben.
- Kleine Modelle haben eine sehr gute Nische für bestimmte Aufgaben. Für die Dokumentverarbeitung in der Desktop-App, die ich entwickle, nutze ich ein feinabgestimmtes Phi-4-Modell; es ist noch kleiner als dieses hier und passt statt in VRAM in etwa 3,5GB RAM.
  Wenn man eine sehr konkrete Idee für den Einsatz lokaler Modelle hat, kann man sie auch ohne Grafikkarte oder NPU gut zum Laufen bringen.
  Allerdings muss man die Nutzung extrem stark einschränken. Als allgemeiner Chatbot ist es nicht gut, und obwohl ich lokale LLMs mag, würde ich dafür dann ein gehostetes aktuelles Modell verwenden.
- Dieses Modell kenne ich nicht, aber das 31B direkt darüber nutze ich in OpenCode als agentischen Coding-Assistenten.
  Wenn eine Aufgabe einfach genug ist, dass ich sie Sonnet überlassen würde, überlasse ich sie auch Gemma 4, und es macht das sehr gut.
  Ich bin viel häufiger positiv überrascht als negativ.
  Es kommt gar nicht so selten vor, dass Gemma 4 scheitert, ich auf Opus 4.7 wechsle und dann auch Opus scheitert.
Ziemlich gutes Update. Das Demovideo ist allerdings etwas komisch.
Als der Tester das Modell bat, die Release Notes in Aufzählungspunkte umzuwandeln, hat es das gut gemacht.
Als er anschließend bat, daraus einen E-Mail-Entwurf zu machen, wandelte es die Aufzählungspunkte ohne jede Aufforderung wieder in Absätze um und machte damit gerade rückgängig, was es eben noch gut gemacht hatte.
Vielleicht gibt es ja irgendeine Benimmregel, nach der man in E-Mails keine Aufzählungspunkte verwendet.
Ich habe schnell einen deutschbezogenen Benchmark ausgerollt und überprüft. Beim deutschspezifischen Ergebnis von CohereLabs/include-base-44 liegt Gemma 4 12B bei etwa 0,618.
Gemma 4 26B (A4B MoE) liegt bei 0,647, Qwen 3 14B bei 0,621, Gemma 4 12B bei 0,618, Ministral 14B 2512 bei 0,604 und Gemma 3 12B bei 0,547.
Der Unterschied zwischen Qwen 3 14B und Gemma 4 12B liegt innerhalb der zufälligen Schwankungsbreite, und bei Wiederholungsläufen gab es sogar schon exakt denselben Wert.
Der nächste Schritt, Gemma 4 31B, erreicht in diesem Benchmark 0,676, und auch Qwen 3 14B mit aktivierter Inferenz kommt auf 0,676.
Morgen werde ich auch einen Anti-Cheating-Benchmark laufen lassen, um zu sehen, ob Qwen weiterhin vorne liegt.