Google stellt das offene Modell Gemma 4 vor

(deepmind.google)

10 Punkte von GN⁺ 27 일 전 | 2 Kommentare | Auf WhatsApp teilen

Google DeepMind hat Gemma 4, das offene KI-Modell der nächsten Generation auf Basis der Gemini-3-Technologie, vorgestellt. Es wurde mit einer Architektur entwickelt, die die Intelligenzeffizienz pro Parameter maximiert.
Das Modell ist in vier Größen verfügbar: E2B, E4B, 26B, 31B. Es unterstützt einen breiten Einsatzbereich von Mobilgeräten und IoT bis hin zu persönlichen GPU-Umgebungen.
Zu den wichtigsten Funktionen gehören multimodales Reasoning, Unterstützung für 140 Sprachen, agentische Workflows, feines Fine-Tuning und eine effiziente Architektur.
Die Leistung in den Bereichen Mathematik, Coding und multimodales Verständnis wurde gegenüber Gemma 3 deutlich verbessert, während die Sicherheits- und Zuverlässigkeitsstandards auf dem gleichen Niveau wie bei den kommerziellen Modellen von Google bleiben.
Die Modellgewichte können über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Plattformen heruntergeladen werden; unterstützt wird die integrierte Ausführung in lokalen und Cloud-Umgebungen.

Gemma 4 — Offenes KI-Modell der nächsten Generation

Gemma 4 ist das neueste offene Modell von Google DeepMind, entwickelt auf Grundlage von Forschung und Technologie aus Gemini 3, mit einer Architektur zur Maximierung der Intelligenzeffizienz pro Parameter (intelligence-per-parameter).
Das Modell ist in vier Größen verfügbar: E2B, E4B, 26B, 31B, und kann in unterschiedlichen Umgebungen von Mobilgeräten und IoT bis hin zu persönlichen Workstations ausgeführt werden.
Zu den Kernfunktionen zählen multimodales Reasoning, Unterstützung für 140 Sprachen, agentische Workflows, feines Fine-Tuning und eine effiziente Architektur.
In Leistungs-Benchmarks zeigt es gegenüber Gemma 3 durchgängig Verbesserungen, insbesondere in den Bereichen Mathematik, Coding und multimodales Verständnis.
Die Sicherheits- und Zuverlässigkeitsstandards bleiben auf dem gleichen Niveau wie bei den kommerziellen Modellen von Google; die Modellgewichte sind über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Plattformen verfügbar.

Modellaufbau und Effizienz

Gemma 4 wurde auf technischer Basis von Gemini 3 entwickelt und verwendet eine offene Modellarchitektur, die auf maximale Intelligenzeffizienz ausgelegt ist.
Die Modellgrößen sind in vier Versionen unterteilt: E2B, E4B, 26B, 31B; jede Version ist entsprechend Rechenressourcen und Speichereffizienz optimiert.
- E2B·E4B: Für mobile Geräte und IoT, mit Unterstützung für maximale Effizienz und Offline-Ausführung
- 26B·31B: Bieten Reasoning-Fähigkeiten auf Frontier-Niveau in persönlichen GPU-Umgebungen

Hauptfunktionen

Agentic workflows
- Unterstützt Function Calling nativ und ermöglicht den Aufbau autonomer Agenten, die im Namen der Nutzer planen, Apps durchsuchen und Aufgaben ausführen können
Multimodal reasoning
- Kombiniert Audio- und visuelles Verständnis und unterstützt damit die Entwicklung leistungsfähiger multimodaler Anwendungen
Support for 140 languages
- Ermöglicht mehrsprachige Erfahrungen, die über reine Übersetzung hinausgehen und auch kulturellen Kontext berücksichtigen
Fine tuning
- Nutzer können Fine-Tuning mit ihren bevorzugten Frameworks und Methoden durchführen, um die Leistung bei spezifischen Aufgaben zu verbessern
Efficient architecture
- Kann auf eigener Hardware ausgeführt werden und bietet eine effiziente Entwicklungs- und Bereitstellungsumgebung

Leistung

Gemma 4 wurde anhand verschiedener textgenerierungsbezogener Datensätze und Metriken evaluiert.
Zentrale Benchmark-Ergebnisse (basierend auf Gemma 4 31B IT):
- Arena AI (text): 1452 (gegenüber 1365 bei Gemma 3 27B)
- MMMLU (mehrsprachiges Q&A): 85.2%
- MMMU Pro (multimodales Reasoning): 76.9%
- AIME 2026 (Mathematik): 89.2%
- LiveCodeBench v6 (Coding-Aufgaben): 80.0%
- GPQA Diamond (wissenschaftliches Wissen): 84.3%
- τ2-bench (agentische Tool-Nutzung): 86.4%
Insgesamt zeigt Gemma 4 gegenüber Gemma 3 in allen Bereichen Leistungsverbesserungen, insbesondere in Mathematik, Coding und multimodalem Verständnis.

E2B und E4B — für Mobilgeräte und IoT

Durch Audio- und Vision-Unterstützung ist Echtzeitverarbeitung auf Edge-Geräten möglich.
Auf Smartphones, Raspberry Pi, Jetson Nano und ähnlichen Geräten werden vollständige Offline-Ausführung sowie nahezu latenzfreie Leistung unterstützt.
Kann über die Google AI Edge Gallery ausprobiert werden.

26B und 31B — Hochleistungs-KI lokal

Bieten fortgeschrittene Reasoning-Funktionen, die für IDE, Coding-Assistenten und agentische Workflows geeignet sind.
Sind für Consumer-GPUs optimiert, sodass Studierende, Forschende und Entwickler lokale KI-Serverumgebungen aufbauen können.
Können direkt in Google AI Studio ausgeführt werden.

Sicherheit und Zuverlässigkeit

Gemma 4 verwendet dieselben Infrastruktur-Sicherheitsprotokolle wie die kommerziellen Modelle von Google.
Bietet eine transparente und vertrauenswürdige Grundlage für den Einsatz in Unternehmen und öffentlichen Einrichtungen.
Liefert modernste KI-Funktionen und erfüllt zugleich höchste Sicherheits- und Zuverlässigkeitsstandards.

Download und Ausführung

Download der Modellgewichte
- Gemma-4-Modellgewichte sind über Hugging Face, Ollama, Kaggle, LM Studio und Docker Hub verfügbar
Unterstützung für Training und Deployment
- Unterstützt die Integration mit verschiedenen Plattformen wie Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine und Ollama
- Über die offizielle Dokumentation und APIs können Trainings-, Deployment- und Inferenzumgebungen eingerichtet werden

Gemmaverse-Community

Über Gemmaverse können Projekte aus aller Welt entdeckt werden, die Entwickler mit Gemma aufgebaut haben.
Aktuelle Updates werden über die Kanäle von Google DeepMind auf X, Instagram, YouTube, LinkedIn, GitHub bereitgestellt.
Per Abonnement lassen sich Neuigkeiten zu den neuesten KI-Innovationen erhalten.

2 Kommentare

GN⁺ 27 일 전

Hacker-News-Kommentare

Eine Version von Gemma 4 mit integrierten Reasoning-, Multimodal- und Tool-Calling-Funktionen wurde veröffentlicht.
In der Hugging Face Collection lassen sich quantisierte Modelle herunterladen, außerdem gibt es eine Unsloth-Anleitung.
Empfohlene Parameter sind temperature=1.0, top_p=0.95, top_k=64, EOS ist ", und für den Thinking-Trace wird <|channel>thought\n verwendet.
- Daniels Arbeit verändert die Welt.
  Ich habe eine OCR-, Embedding- und Zusammenfassungs-Pipeline aufgebaut, um Grundbucheinträge aus dem 19. Jahrhundert durchsuchbar zu machen.
  Mit GGUF und llama.cpp wurde mehrsprachige Suche möglich, und eine Wartezeit von 1 Minute pro Verarbeitungsschritt fühlt sich überhaupt nicht problematisch an.
- Ich wollte in llama.cpp „thinking“ deaktivieren, aber weder --reasoning-budget 0 noch --chat-template-kwargs '{"enable_thinking":false}' funktionierten.
  Ich habe herausgefunden, dass man das neue Flag --reasoning off verwenden muss.
  Ich habe unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL auf einem MacBook Air M4 (32GB) getestet, und es war viel beeindruckender als qwen3.5-35b-a3b.
- Im Screenshot des Schritts „Search and download Gemma 4“ in der Anleitung ist qwen3.5 zu sehen, und in Unsloth Studio erscheinen nur Gemma-3-Modelle.
- Anfängerfrage, aber ich frage mich, warum man diese Version statt des Originalmodells verwenden sollte.
- Beim Installieren von Gemma 4 mit Unsloth unter Windows 11 trat beim Schritt zum Festlegen des Passworts ein Fehler auf.
  PowerShell installierte mehrere Komponenten und forderte dann zum Öffnen einer localhost-URL auf, scheiterte aber direkt danach.
  Ich bin kein Entwickler und mit PowerShell nicht vertraut, deshalb war das schwierig, und ich fände eine Bereitstellung als einzelne ausführbare Datei (.exe) gut.
Ich habe die Gemma-4-Modelle in LM Studio getestet.
Die 2B- und 4B-Modelle erzeugten seltsame Pelikan-Bilder, das 26B-A4B-Modell dagegen die besten Ergebnisse, die ich bisher gesehen habe.
Ich teile die Testergebnisse.
Das 31B-Modell gab lokal nur ---\n aus, funktionierte aber über die AI Studio API normal.
- Dank des Pelikan-Benchmarks schaue ich jetzt bei jedem Modell-Release in die Hacker-News-Kommentare.
- Ich frage mich, ob der Pelikan inzwischen vielleicht Teil der Trainingsdaten geworden ist.
- Es wäre schön, eine Galerieseite zu haben, auf der alle Pelikan-Bilder auf einen Blick zu sehen sind.
  Zum Beispiel: clocks.brianmoore.com
- Mit der instruction-tuned-Version wäre die Pelikan-Qualität vermutlich deutlich besser.
- Ich frage mich, auf welcher Notebook-Hardware das gelaufen ist.
Ich habe eine Tabelle erstellt, die die Benchmarks von Gemma 4 und Qwen 3.5 vergleicht.
Sie enthält verschiedene Metriken wie MMLU-Pro, GPQA und Codeforces ELO.
- Der ELO-Wert unterscheidet sich stark von tfas Grafik.
  Beim Vergleich von Qwen 3.5-27B mit Gemma 4 26B/31B gibt es Stellen, an denen die Ergebnisse umgekehrt ausfallen.
  Dass das Unsloth-Team GGUF so schnell veröffentlicht hat, ist beeindruckend, und wenn es auf dem Niveau von Qwen 3.5 liegt, ist das sehr ermutigend.
- Als Nutzer mit einer 24GB-GPU weiß ich nicht genau, welches Modell ich anhand dieser Tabelle wählen sollte.
- Ein Vergleich mit umgedrehter Achse und entfernten Modellen kann eher missverständlich sein.
  Die kleinen Gemma-Modelle sind deutlich schwächer als die kleinen Modelle von Qwen.
  Siehe Qwen3.5-4B und den Reddit-Thread zu Gemma 4.
Ich bin Teil des Gemma-Teams und habe an diesem großen Release mitgearbeitet.
Wenn es Fragen gibt, kann ich sie beantworten.
- Ich frage mich, ob wie bei Gemma 3 eine Version mit Quantization-Aware Training (QAT) geplant ist.
  Siehe den zugehörigen Blog.
- Ich frage mich, warum diesmal die 12B-Version fehlt.
  Ich hatte ein Mittelklassemodell erwartet, das mit Qwen3.5 9B konkurriert.
- Ich frage mich, ob „major number release“ tatsächlich eine Vergrößerung des Rechenaufwands bedeutet oder eher den Wechsel auf eine neue Architektur.
- Es wird gefragt, warum die Leistung in Benchmarks abseits des ELO-Werts niedriger ausfällt.
  Vielleicht sorgen die Benchmarks selbst für eine verzerrte Vergleichsbasis.
- In meinen eigenen Tests lag die Leistung fast auf dem Niveau von Gemini 3 Pro, bei zehnmal niedrigeren Kosten.
  Vergleichslink
Ich habe Gemma 4 und Qwen 3.5 mit einem Prompt zur Berechnung eines Unix-Timestamps verglichen.
Qwen dachte mehr als 8 Minuten nach und lieferte dann die richtige Antwort, Gemma brauchte 30 Sekunden und lieferte ein falsches Ergebnis.
Gemma schrieb zwar ein Python-Skript, konnte es aber nicht ausführen, und lag deshalb falsch.
- Damit ein Modell tatsächlich Code ausführen kann, braucht es in einer agentischen Harness-Umgebung Sandboxing und eine bereitgestellte Spezifikation.
  Andernfalls kann es nur raten.
- Der Befehl date funktioniert in GNU-Umgebungen korrekt.
  Unter macOS muss man gdate installieren (brew install coreutils).
- In einer Umgebung mit RX 9070 XT (24GB VRAM) erhielt ich auch ohne Tools das richtige Ergebnis.
  gist-Link
- Der Verfasser des ursprünglichen Kommentars hatte dem Modell keine Berechtigung gegeben, Befehle tatsächlich auszuführen.
  Das Modell hat sie lediglich „in der Vorstellung“ ausgeführt.
- Der letzte Satz war lustig.
Modulars MAX nightly ist die schnellste Open-Source-Implementierung auf Blackwell und AMD MI355.
Laut dem Modular-Blog ist es direkt per pip installierbar.
- Es wird gefragt, ob es schneller als TensorRT-LLM ist oder ob es einen Grund gibt, TensorRT-LLM nicht als Open Source anzusehen.
- Ich frage mich, wie groß der Geschwindigkeitsgewinn gegenüber PyTorch ist.
Der ELO-zentrierte Benchmark von Gemma 4 ist potenziell irreführend.
In den meisten Metriken liegt es unter Qwen 3.5 27B.
Die 2B- und 4B-Modelle sind allerdings für ASR oder OCR interessant.
- Öffentliche Benchmarks lassen sich leicht manipulieren.
  Ich vertraue Lmarena-Werten (menschenbasierte Bewertung) mehr.
- In meinen eigenen Tests zeigte es abgesehen vom Coding ziemlich gute Ergebnisse.
  Vergleichslink
- Chinesische Modelle schneiden in privaten Tests wie arc-agi 2 schlechter ab.
- Benchmarks sind nur als Referenz nützlich; am genauesten ist es, direkt mit realen Use Cases zu testen.
- Es ist unklar, was genau mit „ELO Score“ gemeint ist.
Endlich ist das lange erwartete Release da.
Mit nur ein oder zwei weiteren Iterationen dürfte es auch in einer Self-Hosting-Umgebung die meisten Anforderungen erfüllen.
- Ich stimme zu, aber meine „alltäglichen Anforderungen“ werden jedes Jahr komplexer.
  Früher reichte einfaches Frage-und-Antwort, jetzt erwarte ich eher das Niveau eines Coding-Agenten.
  Open Models sind noch nicht ganz so weit, aber dieses Release macht Hoffnung.
- Gemma3:27b und Qwen3-vl:30b-a3b sind die lokalen LLMs, die ich am häufigsten nutze.
  Sie erledigen den Großteil meiner Übersetzungs-, Klassifizierungs- und Kategorisierungsaufgaben.
- Ich frage mich, für welche Arten von Aufgaben Self-Hosting genutzt wird.
Das Beste an diesem Release ist die Apache-2.0-Lizenz.
Es gibt Modelle E2B, E4B (für Mobilgeräte), 26B-A4B (MoE) und 31B (großes Dense-Modell).
Die mobilen Versionen unterstützen Audio-Eingabe, und das 31B ist stark bei agentischen Aufgaben.
Das 26B-A4B hat eine ähnliche VRAM-Effizienz, ist bei der Inferenz aber deutlich schneller.
Ich habe ein kleines Rust-Projekt von Gemma 4 26B und Qwen 3.5 27B bearbeiten lassen und dann verglichen.
Qwen gab nach mehr als 1 Stunde auf, Gemma nach 20 Minuten.
Laut der von Codex zusammengefassten Auswertung hat Qwen eine höhere strukturelle Vollständigkeit, während Gemma schneller, aber unvollständig ist.
Ich stimme dieser Einschätzung zu.
- Wegen eines aktuellen Chat-Template-Bugs ist Tool Calling instabil.
  Siehe den zugehörigen PR und das Issue.
  Man sollte direkt nach dem Release keine vorschnellen Urteile fällen.
- Qwen 3.5 27B ist ein Dense-Modell, daher wäre der richtige Vergleich Gemma 4 31B.
  26B-A4B sollte mit Qwen 3.5 35B-A3B verglichen werden.
- Qwen ist Dense, Gemma basiert auf MoE, daher ist ein direkter Vergleich schwierig.

eoeoe 27 일 전

Das 120b-Gerücht war leider wohl doch nicht wahr.

Google stellt das offene Modell Gemma 4 vor

Gemma 4 — Offenes KI-Modell der nächsten Generation

Modellaufbau und Effizienz

Hauptfunktionen

Agentic workflows

Multimodal reasoning

Support for 140 languages

Fine tuning

Efficient architecture

Leistung

E2B und E4B — für Mobilgeräte und IoT

26B und 31B — Hochleistungs-KI lokal

Sicherheit und Zuverlässigkeit

Download und Ausführung

Download der Modellgewichte

Unterstützung für Training und Deployment

Gemmaverse-Community

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare