Google stellt Gemma 3n vor – ein neuer On-Device-multimodaler KI-Ansatz
(developers.googleblog.com)- Gemma 3n ist das neueste On-Device-multimodale KI-Modell für mobile und Edge-Umgebungen und kann Bilder, Audio, Video und Text verarbeiten
- Mit einer auf Effizienz ausgelegten Struktur und innovativen Architekturen (Matformer, Per-Layer Embeddings, MobileNet-V5 usw.) erreicht es die Leistung bisheriger großer Cloud-Modelle mit 2~3 GB Speicher
- Verfügbar in zwei Modellgrößen, E2B und E4B, und mit Mix-n-Match für fein abgestimmte benutzerdefinierte Größen passend zur Hardware
- Sofort einsetzbar für vielfältige On-Device-KI-Anwendungen wie Spracherkennung und Übersetzung, Echtzeit-Visionsanalyse und mehrsprachige Verarbeitung in 140 Sprachen
- Breit integrierbar in wichtige Open-Source-KI-Ökosysteme wie Hugging Face, Ollama und llama.cpp und sofort nutzbar mit verschiedenen Tools, APIs und SDKs
Überblick und Hintergrund
- Das erste Gemma-Modell, das Anfang letzten Jahres veröffentlicht wurde, erzielte mehr als 160 Millionen Downloads und wuchs zu einem Ökosystem namens Gemmaverse heran
- Dieses Ökosystem umfasst verschiedene spezialisierte Modelle etwa für Sicherheit und Medizin sowie zahlreiche innovative Anwendungsfälle aus Community-Beiträgen
- Aufbauend auf diesem Erfolg kündigt Google die offizielle Veröffentlichung von Gemma 3n an, das gezielt für mobile Nutzung entwickelt wurde
- Es bietet eine breite Integration mit entwicklerfreundlichen Ökosystemen und Tools wie Hugging Face Transformers, llama.cpp, Google AI Edge und Ollama
- Die zentralen Innovationen, Benchmarks und Entwicklungsmethoden von Gemma 3n werden ausführlich aus Entwicklerperspektive vorgestellt
Was ist neu in Gemma 3n?
- Gemma 3n markiert einen neuen Sprung für On-Device-KI
- Es bietet native multimodale Unterstützung für Text-, Bild-, Audio- und Videoeingaben sowie Textausgabe
- Mit maximaler Effizienz ist es in zwei Modellgrößen verfügbar: E2B (5B Parameter) und E4B (8B Parameter), und läuft auch mit wenig Speicher (2 GB, 3 GB)
- Es nutzt innovative Architekturen wie MatFormer, Per Layer Embeddings, LAuReL und AltUp sowie neue Audio- und Vision-Encoder
- Unterstützung für 140 Sprachen, multimodales Verständnis in 35 Sprachen, verbesserte Fähigkeiten in Mathematik, Coding und Reasoning sowie über 1300 Punkte in LMArena für E4B
MatFormer: ein Modell, viele Größen
- Die MatFormer-Architektur (🪆Matryoshka Transformer) ist eine neue Transformer-Struktur, die für Skalierbarkeit und Flexibilität entwickelt wurde
- Sie nutzt das russische Matroschka-Prinzip, bei dem kleinere Modelle unabhängig innerhalb eines größeren Modells enthalten sind
- Beim Training von E4B wird gleichzeitig das E2B-Submodell optimiert, was separate Downloads vorab extrahierter Modelle überflüssig macht und bis zu 2x schnellere Inferenz ermöglicht
- Mit dem Mix-n-Match-Ansatz lassen sich angepasste Zwischenmodelle passend zu Hardware-Beschränkungen erstellen, etwa über Feedforward-Netzwerke oder das Überspringen von Layern
- Im MatFormer Lab lassen sich benchmarkbasierte optimale Einstellungen prüfen und Modelle erzeugen
- Künftig soll auch Elastic Execution unterstützt werden, also ein dynamischer Wechsel der Modellgröße in Echtzeit
Per-Layer Embeddings (PLE): maximale Speichereffizienz auf dem Gerät
- Per-Layer Embeddings (layerweise Embeddings) verbessern bei On-Device-Bereitstellungen die Qualität und minimieren zugleich den Speicherverbrauch
- Von den gesamten Parametern (5B/8B) werden nur die Embeddings effizient auf der CPU geladen und verarbeitet, während nur der Transformer-Kern (2B/4B) im VRAM verbleibt
- Dadurch ist der Betrieb ohne Qualitätsverlust mit deutlich weniger Speicher als bisher möglich, da auf dem Beschleuniger nur etwa 2B Parameter benötigt werden
KV Cache Sharing: Optimierung für lange Kontexteingaben
- Gemma 3n ergänzt KV Cache Sharing, um sequenzielle Eingaben wie langes Audio oder Video schneller zu verarbeiten
- In der Prefill-Phase werden die KV-Caches mittlerer Layer direkt mit höheren Layern geteilt, was die Leistung um mehr als das 2-Fache verbessern kann
- Lange Sequenz-Prompts lassen sich dadurch schneller verarbeiten, was die Echtzeitfähigkeit multimodaler Anwendungen erhöht
Audioerkennung: Unterstützung für STT und Übersetzung
- Es enthält einen Audio-Encoder auf Basis des Universal Speech Model (USM), der Audio-Tokens in 160-ms-Einheiten als Eingabe für das Sprachmodell nutzt
- Damit lassen sich On-Device hochwertige Spracherkennung (ASR) und Sprachübersetzung (AST) umsetzen
- Hohe Leistung wurde für wichtige Sprachpaare wie Englisch↔Spanisch, Französisch, Italienisch und Portugiesisch bestätigt
- Mit Chain-of-Thought-Prompting lässt sich die Übersetzungsqualität weiter verbessern
- Der Audio-Encoder unterstützt zunächst (zum Start) Clips bis 30 Sekunden; später ist eine Erweiterung für längeres Streaming vorgesehen
MobileNet-V5: neuester Vision-Encoder
- MobileNet-V5-300M, integriert in Gemma 3n, ist ein hocheffizienter Vision-Encoder mit starker Leistung auch auf Edge-Geräten
- Es unterstützt verschiedene Eingabeauflösungen wie 256x256, 512x512 und 768x768 Pixel, sodass sich Leistung und Detailgrad an Anforderungen anpassen lassen
- Durch gemeinsames Training auf großen multimodalen Datensätzen wird ein breites Verständnis von Bildern und Videos erreicht, einschließlich konkreter visueller Aufgaben
- Auf Google Pixel ist eine Echtzeitanalyse mit 60 Bildern pro Sekunde möglich
- Architekturseitig kommen zahlreiche Innovationen zum Einsatz, darunter auf MobileNet-V4 basierende Blöcke (Universal Inverted Bottleneck, Mobile MQA), eine hybride Pyramid-Struktur und Multi-Scale-Fusion-VLM-Adapter
- Gegenüber SoViT (Gemma-3-Baseline) ist es mit 13x höherer Geschwindigkeit, 46 % weniger Parametern, 4x geringerem Speicherbedarf und höherer Genauigkeit deutlich überlegen
- Weitere Details zu Architektur, Strategien zur Datenskalierung und Deep-Learning-Destillation sollen im technischen Bericht veröffentlicht werden
Praxis und Verwendung
- Direkt in AI Studio ausprobieren: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- Modell herunterladen/bereitstellen: sofort nutzbar über Hugging Face, Kaggle, Ollama, llama.cpp usw.
- Integration mit Tools und Frameworks: breite Unterstützung für Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth usw.
- API- und Cloud-Bereitstellung: Deployment in verschiedenen Umgebungen wie Google GenAI API, Vertex AI und NVIDIA API
Zentrale On-Device-Anwendungsszenarien
- Echtzeit-KI-Assistenten, Sprachübersetzer, multimodale Chatbots, Echtzeit-Visionsanalyse und IoT auf Smartphones und Edge-Geräten
- Integrierte KI-Services in ressourcenbeschränkten Umgebungen
- KI-Innovationen in Offline- oder netzwerkbeschränkten Umgebungen
Entwicklerressourcen
- Offizielle Dokumentation
- Modell herunterladen (HF)
- MatFormer Lab
- In Google AI Studio ausprobieren
- Open-Source-Ökosystem-Integration, Ollama, MLX, llama.cpp usw.
Gemma 3n Impact Challenge
- Wettbewerb zur Entwicklung von Produkten mit realem gesellschaftlichem Impact unter Nutzung von On-Device-, Offline- und multimodalen Funktionen
- Preisgeld $150,000, Einreichung von Video und Demo erforderlich: https://www.kaggle.com/competitions/google-gemma-3n-hackathon
1 Kommentare
Hacker-News-Kommentare
./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0. Außerdem arbeite ich an einer Colab-Demo für Inference + Finetuning. Gemma 3N unterstützt sogar Audio, Text und Vision, was wirklich beeindruckend ist. Details dazu gibt es unter https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tunejinjahier bedeutet.gemma3:27b-it-qathabe ich ein Spam-Filter-Problem gelöst, und auch meine Benchmarks zeigen, dass es erst ab dieser Größenordnung brauchbar wird.SomeTypedas PräfixST_hinzufügen.“ Ab 12B können Modelle wie Mistral Nemo oder Gemma 3 12b sogar konsistente Sätze erzeugen.