1 Punkte von GN⁺ 2025-06-27 | 1 Kommentare | Auf WhatsApp teilen
  • Gemma 3n ist das neueste On-Device-multimodale KI-Modell für mobile und Edge-Umgebungen und kann Bilder, Audio, Video und Text verarbeiten
  • Mit einer auf Effizienz ausgelegten Struktur und innovativen Architekturen (Matformer, Per-Layer Embeddings, MobileNet-V5 usw.) erreicht es die Leistung bisheriger großer Cloud-Modelle mit 2~3 GB Speicher
  • Verfügbar in zwei Modellgrößen, E2B und E4B, und mit Mix-n-Match für fein abgestimmte benutzerdefinierte Größen passend zur Hardware
  • Sofort einsetzbar für vielfältige On-Device-KI-Anwendungen wie Spracherkennung und Übersetzung, Echtzeit-Visionsanalyse und mehrsprachige Verarbeitung in 140 Sprachen
  • Breit integrierbar in wichtige Open-Source-KI-Ökosysteme wie Hugging Face, Ollama und llama.cpp und sofort nutzbar mit verschiedenen Tools, APIs und SDKs

Überblick und Hintergrund

  • Das erste Gemma-Modell, das Anfang letzten Jahres veröffentlicht wurde, erzielte mehr als 160 Millionen Downloads und wuchs zu einem Ökosystem namens Gemmaverse heran
  • Dieses Ökosystem umfasst verschiedene spezialisierte Modelle etwa für Sicherheit und Medizin sowie zahlreiche innovative Anwendungsfälle aus Community-Beiträgen
  • Aufbauend auf diesem Erfolg kündigt Google die offizielle Veröffentlichung von Gemma 3n an, das gezielt für mobile Nutzung entwickelt wurde
  • Es bietet eine breite Integration mit entwicklerfreundlichen Ökosystemen und Tools wie Hugging Face Transformers, llama.cpp, Google AI Edge und Ollama
  • Die zentralen Innovationen, Benchmarks und Entwicklungsmethoden von Gemma 3n werden ausführlich aus Entwicklerperspektive vorgestellt

Was ist neu in Gemma 3n?

  • Gemma 3n markiert einen neuen Sprung für On-Device-KI
  • Es bietet native multimodale Unterstützung für Text-, Bild-, Audio- und Videoeingaben sowie Textausgabe
  • Mit maximaler Effizienz ist es in zwei Modellgrößen verfügbar: E2B (5B Parameter) und E4B (8B Parameter), und läuft auch mit wenig Speicher (2 GB, 3 GB)
  • Es nutzt innovative Architekturen wie MatFormer, Per Layer Embeddings, LAuReL und AltUp sowie neue Audio- und Vision-Encoder
  • Unterstützung für 140 Sprachen, multimodales Verständnis in 35 Sprachen, verbesserte Fähigkeiten in Mathematik, Coding und Reasoning sowie über 1300 Punkte in LMArena für E4B

MatFormer: ein Modell, viele Größen

  • Die MatFormer-Architektur (🪆Matryoshka Transformer) ist eine neue Transformer-Struktur, die für Skalierbarkeit und Flexibilität entwickelt wurde
  • Sie nutzt das russische Matroschka-Prinzip, bei dem kleinere Modelle unabhängig innerhalb eines größeren Modells enthalten sind
  • Beim Training von E4B wird gleichzeitig das E2B-Submodell optimiert, was separate Downloads vorab extrahierter Modelle überflüssig macht und bis zu 2x schnellere Inferenz ermöglicht
  • Mit dem Mix-n-Match-Ansatz lassen sich angepasste Zwischenmodelle passend zu Hardware-Beschränkungen erstellen, etwa über Feedforward-Netzwerke oder das Überspringen von Layern
  • Im MatFormer Lab lassen sich benchmarkbasierte optimale Einstellungen prüfen und Modelle erzeugen
  • Künftig soll auch Elastic Execution unterstützt werden, also ein dynamischer Wechsel der Modellgröße in Echtzeit

Per-Layer Embeddings (PLE): maximale Speichereffizienz auf dem Gerät

  • Per-Layer Embeddings (layerweise Embeddings) verbessern bei On-Device-Bereitstellungen die Qualität und minimieren zugleich den Speicherverbrauch
  • Von den gesamten Parametern (5B/8B) werden nur die Embeddings effizient auf der CPU geladen und verarbeitet, während nur der Transformer-Kern (2B/4B) im VRAM verbleibt
  • Dadurch ist der Betrieb ohne Qualitätsverlust mit deutlich weniger Speicher als bisher möglich, da auf dem Beschleuniger nur etwa 2B Parameter benötigt werden

KV Cache Sharing: Optimierung für lange Kontexteingaben

  • Gemma 3n ergänzt KV Cache Sharing, um sequenzielle Eingaben wie langes Audio oder Video schneller zu verarbeiten
  • In der Prefill-Phase werden die KV-Caches mittlerer Layer direkt mit höheren Layern geteilt, was die Leistung um mehr als das 2-Fache verbessern kann
  • Lange Sequenz-Prompts lassen sich dadurch schneller verarbeiten, was die Echtzeitfähigkeit multimodaler Anwendungen erhöht

Audioerkennung: Unterstützung für STT und Übersetzung

  • Es enthält einen Audio-Encoder auf Basis des Universal Speech Model (USM), der Audio-Tokens in 160-ms-Einheiten als Eingabe für das Sprachmodell nutzt
  • Damit lassen sich On-Device hochwertige Spracherkennung (ASR) und Sprachübersetzung (AST) umsetzen
  • Hohe Leistung wurde für wichtige Sprachpaare wie Englisch↔Spanisch, Französisch, Italienisch und Portugiesisch bestätigt
  • Mit Chain-of-Thought-Prompting lässt sich die Übersetzungsqualität weiter verbessern
  • Der Audio-Encoder unterstützt zunächst (zum Start) Clips bis 30 Sekunden; später ist eine Erweiterung für längeres Streaming vorgesehen

MobileNet-V5: neuester Vision-Encoder

  • MobileNet-V5-300M, integriert in Gemma 3n, ist ein hocheffizienter Vision-Encoder mit starker Leistung auch auf Edge-Geräten
  • Es unterstützt verschiedene Eingabeauflösungen wie 256x256, 512x512 und 768x768 Pixel, sodass sich Leistung und Detailgrad an Anforderungen anpassen lassen
  • Durch gemeinsames Training auf großen multimodalen Datensätzen wird ein breites Verständnis von Bildern und Videos erreicht, einschließlich konkreter visueller Aufgaben
  • Auf Google Pixel ist eine Echtzeitanalyse mit 60 Bildern pro Sekunde möglich
  • Architekturseitig kommen zahlreiche Innovationen zum Einsatz, darunter auf MobileNet-V4 basierende Blöcke (Universal Inverted Bottleneck, Mobile MQA), eine hybride Pyramid-Struktur und Multi-Scale-Fusion-VLM-Adapter
  • Gegenüber SoViT (Gemma-3-Baseline) ist es mit 13x höherer Geschwindigkeit, 46 % weniger Parametern, 4x geringerem Speicherbedarf und höherer Genauigkeit deutlich überlegen
  • Weitere Details zu Architektur, Strategien zur Datenskalierung und Deep-Learning-Destillation sollen im technischen Bericht veröffentlicht werden

Praxis und Verwendung

  • Direkt in AI Studio ausprobieren: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
  • Modell herunterladen/bereitstellen: sofort nutzbar über Hugging Face, Kaggle, Ollama, llama.cpp usw.
  • Integration mit Tools und Frameworks: breite Unterstützung für Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth usw.
  • API- und Cloud-Bereitstellung: Deployment in verschiedenen Umgebungen wie Google GenAI API, Vertex AI und NVIDIA API

Zentrale On-Device-Anwendungsszenarien

  • Echtzeit-KI-Assistenten, Sprachübersetzer, multimodale Chatbots, Echtzeit-Visionsanalyse und IoT auf Smartphones und Edge-Geräten
  • Integrierte KI-Services in ressourcenbeschränkten Umgebungen
  • KI-Innovationen in Offline- oder netzwerkbeschränkten Umgebungen

Entwicklerressourcen

Gemma 3n Impact Challenge

1 Kommentare

 
GN⁺ 2025-06-27
Hacker-News-Kommentare
  • Dieses Modell zeigt vollständige Kompatibilität mit allem, was ich zuvor mit gemma3 gemacht habe. Ich habe es direkt an mein VLM-Finetuning-Skript angeschlossen, und es lief ohne Probleme (auf Basis des hf-transformer-Codes). Wenn man das E4B-Modell mit LoRA auf einer einzelnen GPU ausführt, braucht man bei Batch Size 1 18 GB VRAM, während gemma-4B 21 GB brauchte. DeepMind hat hier wirklich hervorragende Arbeit geleistet, die gemma3-Reihe ist das Beste unter den VLLMs mit offenen Gewichten.
    • Korrektur: Das Modell, von dem hier die Rede ist, ist aktuell E2B.
  • Ich habe den Prompt „SVG eines Pelikans, der Fahrrad fährt, erzeugen“ auf Gemma 3n 7.5GB (Ollama) und die 15GB-Version von mlx-vlm angewendet, und es war interessant, dass sich die Ergebnisse je nach Quantisierungsgröße unterschieden. Die Ergebnisse habe ich hier veröffentlicht: https://simonwillison.net/2025/Jun/26/gemma-3n/
    • Kann man das wirklich als sinnvollen Benchmark bezeichnen, oder ist das eher nur zum Spaß? Ehrlich gesagt verstehe ich es nicht so ganz.
  • Ich verstehe immer noch nicht richtig, worin sich Gemma und Gemini im On-Device-Umfeld unterscheiden. Beide können schließlich ohne Netzwerkverbindung genutzt werden. Beispiel aus der offiziellen Formulierung: „Gemini Nano bietet auch ohne Netzwerkverbindung umfangreiche generative KI-Erlebnisse“ — dieser Satz wäre mit Gemma statt Gemini genauso korrekt.
    • Der Unterschied ist die Lizenz. Die Gewichte von Gemini Nano kann man nicht direkt verwenden (insbesondere nicht kommerziell), sondern nur über Android MLKit oder von Google freigegebene Laufzeiten darauf zugreifen. Gemma dagegen kann in jeder gewünschten Runtime und jedem Framework kommerziell verwendet werden.
    • Im Preview-Blog zu Gemma 3n steht, dass Gemma 3n und die neue Version von Gemini Nano dieselbe Architektur teilen. Das n steht hier wohl für Nano. Nano ist ein in Android integriertes proprietäres Modell, während Gemma ein offenes Modell ist, das frei überall eingesetzt werden kann. Die entsprechenden Quellen finden sich in offiziellen Google-Blogs und Videos.
    • Gemma ist Open Source und steht unter der Apache-2.0-Lizenz. Wenn man es in eine App einbinden will, muss man es selbst paketieren. Gemini Nano dagegen ist eine Android-API, die sich nicht vollständig kontrollieren lässt.
    • Ich vermute, der Unterschied zwischen den beiden Modellen liegt in den Trainingsdaten. Bei Gemini wird das wohl deutlich strenger kontrolliert, und wenn man versucht, Dinge wörtlich wiedergeben zu lassen, die in den Trainingsdaten vorkamen, kann ein „recitation error“ auftreten.
  • Dank OpenAI scheint diese Art von chaotischer Benennung in der Branche zum Standard geworden zu sein, und ich persönlich mag das überhaupt nicht.
    • Wie hättest du sie denn stattdessen genannt?
  • Ich habe selbst eine GGUF-Version gebaut, falls jemand sie ausprobieren möchte! Ausgeführt wird sie etwa so: ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0. Außerdem arbeite ich an einer Colab-Demo für Inference + Finetuning. Gemma 3N unterstützt sogar Audio, Text und Vision, was wirklich beeindruckend ist. Details dazu gibt es unter https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune
    • Ich habe das E4B-Modell in Ollama getestet, aber die Bildinterpretation funktioniert komplett fehlerhaft. Die Ausgabe stützt sich nur auf den Text und ist konsistent falsch. Da das offizielle Gemma 3 4B korrekt funktioniert, gehe ich davon aus, dass es ein Ollama-Problem ist. Nach etwas Recherche habe ich gesehen, dass derzeit nur Text-only unterstützt wird[1]. Das hätte meiner Meinung nach klarer kommuniziert werden sollen. Ich bin zu faul, llama.cpp selbst zu bauen, und werde wohl warten, bis GGUF unterstützt wird. [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
    • Ich war gerade dabei zu tippen, dass ich eine Unsloth-Version verwenden wollte, und dann sehe ich, dass du sie schon gebaut und veröffentlicht hast. Beeindruckend!
    • Danke! Ich frage mich, welche PC-Spezifikationen man braucht, um solche Modelle auszuführen.
    • Ich frage mich, was jinja hier bedeutet.
  • Ehrlich gesagt frage ich mich, wie solche kleinen Modelle in der Praxis nützlich sein sollen. Ich habe einiges ausprobiert, aber Modelle kleiner als 27B sind kaum mehr als Spielzeug und liefern höchstens gelegentlich gute Antworten. Mit gemma3:27b-it-qat habe ich ein Spam-Filter-Problem gelöst, und auch meine Benchmarks zeigen, dass es erst ab dieser Größenordnung brauchbar wird.
    • Selbst bei geringer Genauigkeit gibt es praktische Einsatzmöglichkeiten. Welche Produkte in Zukunft daraus entstehen, weiß ich nicht, aber schon heute gibt es Beispiele: Auf der iPhone-Tastatur werden kleine Sprachmodelle für Wortvorschläge verwendet, bei denen der Nutzer nur das vorgeschlagene Wort auswählen muss. Außerdem werden kleine Modelle für Dinge wie speculative decoding eingesetzt, um die Inferenz großer Modelle zu beschleunigen. In Zukunft wird es sicher noch intelligentere Anwendungsfälle geben.
    • Wenn man solche kleinen Modelle als grundlegende Infrastruktur betrachtet, sind sie absolut nützlich. Ich fände eine Zukunft großartig, in der die meisten Mobiltelefone eingebaute LLMs haben, fast wie eine selbstverständliche Basistechnologie.
    • Der beste Einsatzzweck, den ich für kleine Modelle (<5bn params) gefunden habe, ist als Offline-Nachschlagewerk. Wenn ich im Flugzeug programmiere, ist es praktisch, statt Google qwen auf dem MacBook Air zu haben, um Fragen zu Syntax, Dokumentation und anderen Grundlagen zu stellen.
    • Kleine Modelle mit 4B oder weniger sind für task-spezifisches Finetuning optimiert und können zu sehr geringen Kosten sogar bessere Ergebnisse liefern als kommerzielle Modelle. Auch für Code-Autovervollständigung sind sie gut geeignet. Modelle mit 7B bis 8B taugen für schnelle, einfache Coding-Aufgaben wie Refactoring, zum Beispiel: „Allen Funktionsnamen mit einem Typ-Parameter SomeType das Präfix ST_ hinzufügen.“ Ab 12B können Modelle wie Mistral Nemo oder Gemma 3 12b sogar konsistente Sätze erzeugen.
  • Kevin Kwok hat die Reverse-Engineering-Arbeit zur Modellstruktur sehr gut aufbereitet, siehe: https://github.com/antimatter15/reverse-engineering-gemma-3n
  • Irgendwo auf einer Google-Seite bräuchte es Daten in Tabellenform mit den einzelnen Produktnamen, Beschreibungen und Funktionen.
  • Die Y-Achse der Grafik ist wirklich absurd gezeichnet.
  • Weiß jemand, was die bereitgestellte Version von gemma 3n in der Praxis kostet? In der Dokumentation steht, dass man gemma 3n über die gemini api nutzen kann, aber beim Preis steht nur „unavailable“.