10 Punkte von GN⁺ 27 일 전 | 2 Kommentare | Auf WhatsApp teilen
  • Google DeepMind hat Gemma 4, das offene KI-Modell der nächsten Generation auf Basis der Gemini-3-Technologie, vorgestellt. Es wurde mit einer Architektur entwickelt, die die Intelligenzeffizienz pro Parameter maximiert.
  • Das Modell ist in vier Größen verfügbar: E2B, E4B, 26B, 31B. Es unterstützt einen breiten Einsatzbereich von Mobilgeräten und IoT bis hin zu persönlichen GPU-Umgebungen.
  • Zu den wichtigsten Funktionen gehören multimodales Reasoning, Unterstützung für 140 Sprachen, agentische Workflows, feines Fine-Tuning und eine effiziente Architektur.
  • Die Leistung in den Bereichen Mathematik, Coding und multimodales Verständnis wurde gegenüber Gemma 3 deutlich verbessert, während die Sicherheits- und Zuverlässigkeitsstandards auf dem gleichen Niveau wie bei den kommerziellen Modellen von Google bleiben.
  • Die Modellgewichte können über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Plattformen heruntergeladen werden; unterstützt wird die integrierte Ausführung in lokalen und Cloud-Umgebungen.

Gemma 4 — Offenes KI-Modell der nächsten Generation

  • Gemma 4 ist das neueste offene Modell von Google DeepMind, entwickelt auf Grundlage von Forschung und Technologie aus Gemini 3, mit einer Architektur zur Maximierung der Intelligenzeffizienz pro Parameter (intelligence-per-parameter).
  • Das Modell ist in vier Größen verfügbar: E2B, E4B, 26B, 31B, und kann in unterschiedlichen Umgebungen von Mobilgeräten und IoT bis hin zu persönlichen Workstations ausgeführt werden.
  • Zu den Kernfunktionen zählen multimodales Reasoning, Unterstützung für 140 Sprachen, agentische Workflows, feines Fine-Tuning und eine effiziente Architektur.
  • In Leistungs-Benchmarks zeigt es gegenüber Gemma 3 durchgängig Verbesserungen, insbesondere in den Bereichen Mathematik, Coding und multimodales Verständnis.
  • Die Sicherheits- und Zuverlässigkeitsstandards bleiben auf dem gleichen Niveau wie bei den kommerziellen Modellen von Google; die Modellgewichte sind über Hugging Face, Ollama, Kaggle, LM Studio, Docker und weitere Plattformen verfügbar.

Modellaufbau und Effizienz

  • Gemma 4 wurde auf technischer Basis von Gemini 3 entwickelt und verwendet eine offene Modellarchitektur, die auf maximale Intelligenzeffizienz ausgelegt ist.
  • Die Modellgrößen sind in vier Versionen unterteilt: E2B, E4B, 26B, 31B; jede Version ist entsprechend Rechenressourcen und Speichereffizienz optimiert.
    • E2B·E4B: Für mobile Geräte und IoT, mit Unterstützung für maximale Effizienz und Offline-Ausführung
    • 26B·31B: Bieten Reasoning-Fähigkeiten auf Frontier-Niveau in persönlichen GPU-Umgebungen

Hauptfunktionen

  • Agentic workflows

    • Unterstützt Function Calling nativ und ermöglicht den Aufbau autonomer Agenten, die im Namen der Nutzer planen, Apps durchsuchen und Aufgaben ausführen können
  • Multimodal reasoning

    • Kombiniert Audio- und visuelles Verständnis und unterstützt damit die Entwicklung leistungsfähiger multimodaler Anwendungen
  • Support for 140 languages

    • Ermöglicht mehrsprachige Erfahrungen, die über reine Übersetzung hinausgehen und auch kulturellen Kontext berücksichtigen
  • Fine tuning

    • Nutzer können Fine-Tuning mit ihren bevorzugten Frameworks und Methoden durchführen, um die Leistung bei spezifischen Aufgaben zu verbessern
  • Efficient architecture

    • Kann auf eigener Hardware ausgeführt werden und bietet eine effiziente Entwicklungs- und Bereitstellungsumgebung

Leistung

  • Gemma 4 wurde anhand verschiedener textgenerierungsbezogener Datensätze und Metriken evaluiert.
  • Zentrale Benchmark-Ergebnisse (basierend auf Gemma 4 31B IT):
    • Arena AI (text): 1452 (gegenüber 1365 bei Gemma 3 27B)
    • MMMLU (mehrsprachiges Q&A): 85.2%
    • MMMU Pro (multimodales Reasoning): 76.9%
    • AIME 2026 (Mathematik): 89.2%
    • LiveCodeBench v6 (Coding-Aufgaben): 80.0%
    • GPQA Diamond (wissenschaftliches Wissen): 84.3%
    • τ2-bench (agentische Tool-Nutzung): 86.4%
  • Insgesamt zeigt Gemma 4 gegenüber Gemma 3 in allen Bereichen Leistungsverbesserungen, insbesondere in Mathematik, Coding und multimodalem Verständnis.

E2B und E4B — für Mobilgeräte und IoT

  • Durch Audio- und Vision-Unterstützung ist Echtzeitverarbeitung auf Edge-Geräten möglich.
  • Auf Smartphones, Raspberry Pi, Jetson Nano und ähnlichen Geräten werden vollständige Offline-Ausführung sowie nahezu latenzfreie Leistung unterstützt.
  • Kann über die Google AI Edge Gallery ausprobiert werden.

26B und 31B — Hochleistungs-KI lokal

  • Bieten fortgeschrittene Reasoning-Funktionen, die für IDE, Coding-Assistenten und agentische Workflows geeignet sind.
  • Sind für Consumer-GPUs optimiert, sodass Studierende, Forschende und Entwickler lokale KI-Serverumgebungen aufbauen können.
  • Können direkt in Google AI Studio ausgeführt werden.

Sicherheit und Zuverlässigkeit

  • Gemma 4 verwendet dieselben Infrastruktur-Sicherheitsprotokolle wie die kommerziellen Modelle von Google.
  • Bietet eine transparente und vertrauenswürdige Grundlage für den Einsatz in Unternehmen und öffentlichen Einrichtungen.
  • Liefert modernste KI-Funktionen und erfüllt zugleich höchste Sicherheits- und Zuverlässigkeitsstandards.

Download und Ausführung

  • Download der Modellgewichte

    • Gemma-4-Modellgewichte sind über Hugging Face, Ollama, Kaggle, LM Studio und Docker Hub verfügbar
  • Unterstützung für Training und Deployment

    • Unterstützt die Integration mit verschiedenen Plattformen wie Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine und Ollama
    • Über die offizielle Dokumentation und APIs können Trainings-, Deployment- und Inferenzumgebungen eingerichtet werden

Gemmaverse-Community

  • Über Gemmaverse können Projekte aus aller Welt entdeckt werden, die Entwickler mit Gemma aufgebaut haben.
  • Aktuelle Updates werden über die Kanäle von Google DeepMind auf X, Instagram, YouTube, LinkedIn, GitHub bereitgestellt.
  • Per Abonnement lassen sich Neuigkeiten zu den neuesten KI-Innovationen erhalten.

2 Kommentare

 
GN⁺ 27 일 전
Hacker-News-Kommentare
  • Eine Version von Gemma 4 mit integrierten Reasoning-, Multimodal- und Tool-Calling-Funktionen wurde veröffentlicht.
    In der Hugging Face Collection lassen sich quantisierte Modelle herunterladen, außerdem gibt es eine Unsloth-Anleitung.
    Empfohlene Parameter sind temperature=1.0, top_p=0.95, top_k=64, EOS ist ", und für den Thinking-Trace wird <|channel>thought\n verwendet.

    • Daniels Arbeit verändert die Welt.
      Ich habe eine OCR-, Embedding- und Zusammenfassungs-Pipeline aufgebaut, um Grundbucheinträge aus dem 19. Jahrhundert durchsuchbar zu machen.
      Mit GGUF und llama.cpp wurde mehrsprachige Suche möglich, und eine Wartezeit von 1 Minute pro Verarbeitungsschritt fühlt sich überhaupt nicht problematisch an.
    • Ich wollte in llama.cpp „thinking“ deaktivieren, aber weder --reasoning-budget 0 noch --chat-template-kwargs '{"enable_thinking":false}' funktionierten.
      Ich habe herausgefunden, dass man das neue Flag --reasoning off verwenden muss.
      Ich habe unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL auf einem MacBook Air M4 (32GB) getestet, und es war viel beeindruckender als qwen3.5-35b-a3b.
    • Im Screenshot des Schritts „Search and download Gemma 4“ in der Anleitung ist qwen3.5 zu sehen, und in Unsloth Studio erscheinen nur Gemma-3-Modelle.
    • Anfängerfrage, aber ich frage mich, warum man diese Version statt des Originalmodells verwenden sollte.
    • Beim Installieren von Gemma 4 mit Unsloth unter Windows 11 trat beim Schritt zum Festlegen des Passworts ein Fehler auf.
      PowerShell installierte mehrere Komponenten und forderte dann zum Öffnen einer localhost-URL auf, scheiterte aber direkt danach.
      Ich bin kein Entwickler und mit PowerShell nicht vertraut, deshalb war das schwierig, und ich fände eine Bereitstellung als einzelne ausführbare Datei (.exe) gut.
  • Ich habe die Gemma-4-Modelle in LM Studio getestet.
    Die 2B- und 4B-Modelle erzeugten seltsame Pelikan-Bilder, das 26B-A4B-Modell dagegen die besten Ergebnisse, die ich bisher gesehen habe.
    Ich teile die Testergebnisse.
    Das 31B-Modell gab lokal nur ---\n aus, funktionierte aber über die AI Studio API normal.

    • Dank des Pelikan-Benchmarks schaue ich jetzt bei jedem Modell-Release in die Hacker-News-Kommentare.
    • Ich frage mich, ob der Pelikan inzwischen vielleicht Teil der Trainingsdaten geworden ist.
    • Es wäre schön, eine Galerieseite zu haben, auf der alle Pelikan-Bilder auf einen Blick zu sehen sind.
      Zum Beispiel: clocks.brianmoore.com
    • Mit der instruction-tuned-Version wäre die Pelikan-Qualität vermutlich deutlich besser.
    • Ich frage mich, auf welcher Notebook-Hardware das gelaufen ist.
  • Ich habe eine Tabelle erstellt, die die Benchmarks von Gemma 4 und Qwen 3.5 vergleicht.
    Sie enthält verschiedene Metriken wie MMLU-Pro, GPQA und Codeforces ELO.

    • Der ELO-Wert unterscheidet sich stark von tfas Grafik.
      Beim Vergleich von Qwen 3.5-27B mit Gemma 4 26B/31B gibt es Stellen, an denen die Ergebnisse umgekehrt ausfallen.
      Dass das Unsloth-Team GGUF so schnell veröffentlicht hat, ist beeindruckend, und wenn es auf dem Niveau von Qwen 3.5 liegt, ist das sehr ermutigend.
    • Als Nutzer mit einer 24GB-GPU weiß ich nicht genau, welches Modell ich anhand dieser Tabelle wählen sollte.
    • Ein Vergleich mit umgedrehter Achse und entfernten Modellen kann eher missverständlich sein.
      Die kleinen Gemma-Modelle sind deutlich schwächer als die kleinen Modelle von Qwen.
      Siehe Qwen3.5-4B und den Reddit-Thread zu Gemma 4.
  • Ich bin Teil des Gemma-Teams und habe an diesem großen Release mitgearbeitet.
    Wenn es Fragen gibt, kann ich sie beantworten.

    • Ich frage mich, ob wie bei Gemma 3 eine Version mit Quantization-Aware Training (QAT) geplant ist.
      Siehe den zugehörigen Blog.
    • Ich frage mich, warum diesmal die 12B-Version fehlt.
      Ich hatte ein Mittelklassemodell erwartet, das mit Qwen3.5 9B konkurriert.
    • Ich frage mich, ob „major number release“ tatsächlich eine Vergrößerung des Rechenaufwands bedeutet oder eher den Wechsel auf eine neue Architektur.
    • Es wird gefragt, warum die Leistung in Benchmarks abseits des ELO-Werts niedriger ausfällt.
      Vielleicht sorgen die Benchmarks selbst für eine verzerrte Vergleichsbasis.
    • In meinen eigenen Tests lag die Leistung fast auf dem Niveau von Gemini 3 Pro, bei zehnmal niedrigeren Kosten.
      Vergleichslink
  • Ich habe Gemma 4 und Qwen 3.5 mit einem Prompt zur Berechnung eines Unix-Timestamps verglichen.
    Qwen dachte mehr als 8 Minuten nach und lieferte dann die richtige Antwort, Gemma brauchte 30 Sekunden und lieferte ein falsches Ergebnis.
    Gemma schrieb zwar ein Python-Skript, konnte es aber nicht ausführen, und lag deshalb falsch.

    • Damit ein Modell tatsächlich Code ausführen kann, braucht es in einer agentischen Harness-Umgebung Sandboxing und eine bereitgestellte Spezifikation.
      Andernfalls kann es nur raten.
    • Der Befehl date funktioniert in GNU-Umgebungen korrekt.
      Unter macOS muss man gdate installieren (brew install coreutils).
    • In einer Umgebung mit RX 9070 XT (24GB VRAM) erhielt ich auch ohne Tools das richtige Ergebnis.
      gist-Link
    • Der Verfasser des ursprünglichen Kommentars hatte dem Modell keine Berechtigung gegeben, Befehle tatsächlich auszuführen.
      Das Modell hat sie lediglich „in der Vorstellung“ ausgeführt.
    • Der letzte Satz war lustig.
  • Modulars MAX nightly ist die schnellste Open-Source-Implementierung auf Blackwell und AMD MI355.
    Laut dem Modular-Blog ist es direkt per pip installierbar.

    • Es wird gefragt, ob es schneller als TensorRT-LLM ist oder ob es einen Grund gibt, TensorRT-LLM nicht als Open Source anzusehen.
    • Ich frage mich, wie groß der Geschwindigkeitsgewinn gegenüber PyTorch ist.
  • Der ELO-zentrierte Benchmark von Gemma 4 ist potenziell irreführend.
    In den meisten Metriken liegt es unter Qwen 3.5 27B.
    Die 2B- und 4B-Modelle sind allerdings für ASR oder OCR interessant.

    • Öffentliche Benchmarks lassen sich leicht manipulieren.
      Ich vertraue Lmarena-Werten (menschenbasierte Bewertung) mehr.
    • In meinen eigenen Tests zeigte es abgesehen vom Coding ziemlich gute Ergebnisse.
      Vergleichslink
    • Chinesische Modelle schneiden in privaten Tests wie arc-agi 2 schlechter ab.
    • Benchmarks sind nur als Referenz nützlich; am genauesten ist es, direkt mit realen Use Cases zu testen.
    • Es ist unklar, was genau mit „ELO Score“ gemeint ist.
  • Endlich ist das lange erwartete Release da.
    Mit nur ein oder zwei weiteren Iterationen dürfte es auch in einer Self-Hosting-Umgebung die meisten Anforderungen erfüllen.

    • Ich stimme zu, aber meine „alltäglichen Anforderungen“ werden jedes Jahr komplexer.
      Früher reichte einfaches Frage-und-Antwort, jetzt erwarte ich eher das Niveau eines Coding-Agenten.
      Open Models sind noch nicht ganz so weit, aber dieses Release macht Hoffnung.
    • Gemma3:27b und Qwen3-vl:30b-a3b sind die lokalen LLMs, die ich am häufigsten nutze.
      Sie erledigen den Großteil meiner Übersetzungs-, Klassifizierungs- und Kategorisierungsaufgaben.
    • Ich frage mich, für welche Arten von Aufgaben Self-Hosting genutzt wird.
  • Das Beste an diesem Release ist die Apache-2.0-Lizenz.
    Es gibt Modelle E2B, E4B (für Mobilgeräte), 26B-A4B (MoE) und 31B (großes Dense-Modell).
    Die mobilen Versionen unterstützen Audio-Eingabe, und das 31B ist stark bei agentischen Aufgaben.
    Das 26B-A4B hat eine ähnliche VRAM-Effizienz, ist bei der Inferenz aber deutlich schneller.

  • Ich habe ein kleines Rust-Projekt von Gemma 4 26B und Qwen 3.5 27B bearbeiten lassen und dann verglichen.
    Qwen gab nach mehr als 1 Stunde auf, Gemma nach 20 Minuten.
    Laut der von Codex zusammengefassten Auswertung hat Qwen eine höhere strukturelle Vollständigkeit, während Gemma schneller, aber unvollständig ist.
    Ich stimme dieser Einschätzung zu.

    • Wegen eines aktuellen Chat-Template-Bugs ist Tool Calling instabil.
      Siehe den zugehörigen PR und das Issue.
      Man sollte direkt nach dem Release keine vorschnellen Urteile fällen.
    • Qwen 3.5 27B ist ein Dense-Modell, daher wäre der richtige Vergleich Gemma 4 31B.
      26B-A4B sollte mit Qwen 3.5 35B-A3B verglichen werden.
    • Qwen ist Dense, Gemma basiert auf MoE, daher ist ein direkter Vergleich schwierig.
 
eoeoe 27 일 전

Das 120b-Gerücht war leider wohl doch nicht wahr.