Google stellt das offene Modell Gemma 4 vor
(deepmind.google)- Google DeepMind hat Gemma 4, das offene KI-Modell der nächsten Generation auf Basis der Gemini-3-Technologie, vorgestellt. Es wurde mit einer Architektur entwickelt, die die Intelligenzeffizienz pro Parameter maximiert.
- Das Modell ist in vier Größen verfügbar: E2B, E4B, 26B, 31B. Es unterstützt einen breiten Einsatzbereich von Mobilgeräten und IoT bis hin zu persönlichen GPU-Umgebungen.
- Zu den wichtigsten Funktionen gehören multimodales Reasoning, Unterstützung für 140 Sprachen, agentische Workflows, feines Fine-Tuning und eine effiziente Architektur.
- Die Leistung in den Bereichen Mathematik, Coding und multimodales Verständnis wurde gegenüber Gemma 3 deutlich verbessert, während die Sicherheits- und Zuverlässigkeitsstandards auf dem gleichen Niveau wie bei den kommerziellen Modellen von Google bleiben.
- Die Modellgewichte können über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Plattformen heruntergeladen werden; unterstützt wird die integrierte Ausführung in lokalen und Cloud-Umgebungen.
Gemma 4 — Offenes KI-Modell der nächsten Generation
- Gemma 4 ist das neueste offene Modell von Google DeepMind, entwickelt auf Grundlage von Forschung und Technologie aus Gemini 3, mit einer Architektur zur Maximierung der Intelligenzeffizienz pro Parameter (intelligence-per-parameter).
- Das Modell ist in vier Größen verfügbar: E2B, E4B, 26B, 31B, und kann in unterschiedlichen Umgebungen von Mobilgeräten und IoT bis hin zu persönlichen Workstations ausgeführt werden.
- Zu den Kernfunktionen zählen multimodales Reasoning, Unterstützung für 140 Sprachen, agentische Workflows, feines Fine-Tuning und eine effiziente Architektur.
- In Leistungs-Benchmarks zeigt es gegenüber Gemma 3 durchgängig Verbesserungen, insbesondere in den Bereichen Mathematik, Coding und multimodales Verständnis.
- Die Sicherheits- und Zuverlässigkeitsstandards bleiben auf dem gleichen Niveau wie bei den kommerziellen Modellen von Google; die Modellgewichte sind über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Plattformen verfügbar.
Modellaufbau und Effizienz
- Gemma 4 wurde auf technischer Basis von Gemini 3 entwickelt und verwendet eine offene Modellarchitektur, die auf maximale Intelligenzeffizienz ausgelegt ist.
- Die Modellgrößen sind in vier Versionen unterteilt: E2B, E4B, 26B, 31B; jede Version ist entsprechend Rechenressourcen und Speichereffizienz optimiert.
- E2B·E4B: Für mobile Geräte und IoT, mit Unterstützung für maximale Effizienz und Offline-Ausführung
- 26B·31B: Bieten Reasoning-Fähigkeiten auf Frontier-Niveau in persönlichen GPU-Umgebungen
Hauptfunktionen
-
Agentic workflows
- Unterstützt Function Calling nativ und ermöglicht den Aufbau autonomer Agenten, die im Namen der Nutzer planen, Apps durchsuchen und Aufgaben ausführen können
-
Multimodal reasoning
- Kombiniert Audio- und visuelles Verständnis und unterstützt damit die Entwicklung leistungsfähiger multimodaler Anwendungen
-
Support for 140 languages
- Ermöglicht mehrsprachige Erfahrungen, die über reine Übersetzung hinausgehen und auch kulturellen Kontext berücksichtigen
-
Fine tuning
- Nutzer können Fine-Tuning mit ihren bevorzugten Frameworks und Methoden durchführen, um die Leistung bei spezifischen Aufgaben zu verbessern
-
Efficient architecture
- Kann auf eigener Hardware ausgeführt werden und bietet eine effiziente Entwicklungs- und Bereitstellungsumgebung
Leistung
- Gemma 4 wurde anhand verschiedener textgenerierungsbezogener Datensätze und Metriken evaluiert.
- Zentrale Benchmark-Ergebnisse (basierend auf Gemma 4 31B IT):
- Arena AI (text): 1452 (gegenüber 1365 bei Gemma 3 27B)
- MMMLU (mehrsprachiges Q&A): 85.2%
- MMMU Pro (multimodales Reasoning): 76.9%
- AIME 2026 (Mathematik): 89.2%
- LiveCodeBench v6 (Coding-Aufgaben): 80.0%
- GPQA Diamond (wissenschaftliches Wissen): 84.3%
- τ2-bench (agentische Tool-Nutzung): 86.4%
- Insgesamt zeigt Gemma 4 gegenüber Gemma 3 in allen Bereichen Leistungsverbesserungen, insbesondere in Mathematik, Coding und multimodalem Verständnis.
E2B und E4B — für Mobilgeräte und IoT
- Durch Audio- und Vision-Unterstützung ist Echtzeitverarbeitung auf Edge-Geräten möglich.
- Auf Smartphones, Raspberry Pi, Jetson Nano und ähnlichen Geräten werden vollständige Offline-Ausführung sowie nahezu latenzfreie Leistung unterstützt.
- Kann über die Google AI Edge Gallery ausprobiert werden.
26B und 31B — Hochleistungs-KI lokal
- Bieten fortgeschrittene Reasoning-Funktionen, die für IDE, Coding-Assistenten und agentische Workflows geeignet sind.
- Sind für Consumer-GPUs optimiert, sodass Studierende, Forschende und Entwickler lokale KI-Serverumgebungen aufbauen können.
- Können direkt in Google AI Studio ausgeführt werden.
Sicherheit und Zuverlässigkeit
- Gemma 4 verwendet dieselben Infrastruktur-Sicherheitsprotokolle wie die kommerziellen Modelle von Google.
- Bietet eine transparente und vertrauenswürdige Grundlage für den Einsatz in Unternehmen und öffentlichen Einrichtungen.
- Liefert modernste KI-Funktionen und erfüllt zugleich höchste Sicherheits- und Zuverlässigkeitsstandards.
Download und Ausführung
-
Download der Modellgewichte
- Gemma-4-Modellgewichte sind über Hugging Face, Ollama, Kaggle, LM Studio und Docker Hub verfügbar
-
Unterstützung für Training und Deployment
- Unterstützt die Integration mit verschiedenen Plattformen wie Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine und Ollama
- Über die offizielle Dokumentation und APIs können Trainings-, Deployment- und Inferenzumgebungen eingerichtet werden
Gemmaverse-Community
- Über Gemmaverse können Projekte aus aller Welt entdeckt werden, die Entwickler mit Gemma aufgebaut haben.
- Aktuelle Updates werden über die Kanäle von Google DeepMind auf X, Instagram, YouTube, LinkedIn, GitHub bereitgestellt.
- Per Abonnement lassen sich Neuigkeiten zu den neuesten KI-Innovationen erhalten.
2 Kommentare
Hacker-News-Kommentare
Eine Version von Gemma 4 mit integrierten Reasoning-, Multimodal- und Tool-Calling-Funktionen wurde veröffentlicht.
In der Hugging Face Collection lassen sich quantisierte Modelle herunterladen, außerdem gibt es eine Unsloth-Anleitung.
Empfohlene Parameter sind temperature=1.0, top_p=0.95, top_k=64, EOS ist
", und für den Thinking-Trace wird<|channel>thought\nverwendet.Ich habe eine OCR-, Embedding- und Zusammenfassungs-Pipeline aufgebaut, um Grundbucheinträge aus dem 19. Jahrhundert durchsuchbar zu machen.
Mit GGUF und llama.cpp wurde mehrsprachige Suche möglich, und eine Wartezeit von 1 Minute pro Verarbeitungsschritt fühlt sich überhaupt nicht problematisch an.
--reasoning-budget 0noch--chat-template-kwargs '{"enable_thinking":false}'funktionierten.Ich habe herausgefunden, dass man das neue Flag
--reasoning offverwenden muss.Ich habe unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL auf einem MacBook Air M4 (32GB) getestet, und es war viel beeindruckender als qwen3.5-35b-a3b.
PowerShell installierte mehrere Komponenten und forderte dann zum Öffnen einer
localhost-URL auf, scheiterte aber direkt danach.Ich bin kein Entwickler und mit PowerShell nicht vertraut, deshalb war das schwierig, und ich fände eine Bereitstellung als einzelne ausführbare Datei (.exe) gut.
Ich habe die Gemma-4-Modelle in LM Studio getestet.
Die 2B- und 4B-Modelle erzeugten seltsame Pelikan-Bilder, das 26B-A4B-Modell dagegen die besten Ergebnisse, die ich bisher gesehen habe.
Ich teile die Testergebnisse.
Das 31B-Modell gab lokal nur
---\naus, funktionierte aber über die AI Studio API normal.Zum Beispiel: clocks.brianmoore.com
Ich habe eine Tabelle erstellt, die die Benchmarks von Gemma 4 und Qwen 3.5 vergleicht.
Sie enthält verschiedene Metriken wie MMLU-Pro, GPQA und Codeforces ELO.
Beim Vergleich von Qwen 3.5-27B mit Gemma 4 26B/31B gibt es Stellen, an denen die Ergebnisse umgekehrt ausfallen.
Dass das Unsloth-Team GGUF so schnell veröffentlicht hat, ist beeindruckend, und wenn es auf dem Niveau von Qwen 3.5 liegt, ist das sehr ermutigend.
Die kleinen Gemma-Modelle sind deutlich schwächer als die kleinen Modelle von Qwen.
Siehe Qwen3.5-4B und den Reddit-Thread zu Gemma 4.
Ich bin Teil des Gemma-Teams und habe an diesem großen Release mitgearbeitet.
Wenn es Fragen gibt, kann ich sie beantworten.
Siehe den zugehörigen Blog.
Ich hatte ein Mittelklassemodell erwartet, das mit Qwen3.5 9B konkurriert.
Vielleicht sorgen die Benchmarks selbst für eine verzerrte Vergleichsbasis.
Vergleichslink
Ich habe Gemma 4 und Qwen 3.5 mit einem Prompt zur Berechnung eines Unix-Timestamps verglichen.
Qwen dachte mehr als 8 Minuten nach und lieferte dann die richtige Antwort, Gemma brauchte 30 Sekunden und lieferte ein falsches Ergebnis.
Gemma schrieb zwar ein Python-Skript, konnte es aber nicht ausführen, und lag deshalb falsch.
Andernfalls kann es nur raten.
datefunktioniert in GNU-Umgebungen korrekt.Unter macOS muss man
gdateinstallieren (brew install coreutils).gist-Link
Das Modell hat sie lediglich „in der Vorstellung“ ausgeführt.
Modulars MAX nightly ist die schnellste Open-Source-Implementierung auf Blackwell und AMD MI355.
Laut dem Modular-Blog ist es direkt per pip installierbar.
Der ELO-zentrierte Benchmark von Gemma 4 ist potenziell irreführend.
In den meisten Metriken liegt es unter Qwen 3.5 27B.
Die 2B- und 4B-Modelle sind allerdings für ASR oder OCR interessant.
Ich vertraue Lmarena-Werten (menschenbasierte Bewertung) mehr.
Vergleichslink
Endlich ist das lange erwartete Release da.
Mit nur ein oder zwei weiteren Iterationen dürfte es auch in einer Self-Hosting-Umgebung die meisten Anforderungen erfüllen.
Früher reichte einfaches Frage-und-Antwort, jetzt erwarte ich eher das Niveau eines Coding-Agenten.
Open Models sind noch nicht ganz so weit, aber dieses Release macht Hoffnung.
Sie erledigen den Großteil meiner Übersetzungs-, Klassifizierungs- und Kategorisierungsaufgaben.
Das Beste an diesem Release ist die Apache-2.0-Lizenz.
Es gibt Modelle E2B, E4B (für Mobilgeräte), 26B-A4B (MoE) und 31B (großes Dense-Modell).
Die mobilen Versionen unterstützen Audio-Eingabe, und das 31B ist stark bei agentischen Aufgaben.
Das 26B-A4B hat eine ähnliche VRAM-Effizienz, ist bei der Inferenz aber deutlich schneller.
Ich habe ein kleines Rust-Projekt von Gemma 4 26B und Qwen 3.5 27B bearbeiten lassen und dann verglichen.
Qwen gab nach mehr als 1 Stunde auf, Gemma nach 20 Minuten.
Laut der von Codex zusammengefassten Auswertung hat Qwen eine höhere strukturelle Vollständigkeit, während Gemma schneller, aber unvollständig ist.
Ich stimme dieser Einschätzung zu.
Siehe den zugehörigen PR und das Issue.
Man sollte direkt nach dem Release keine vorschnellen Urteile fällen.
26B-A4B sollte mit Qwen 3.5 35B-A3B verglichen werden.
Das 120b-Gerücht war leider wohl doch nicht wahr.