Gemini 3.1 Pro
(blog.google)- Ein fortschrittliches multimodales KI-Modell für die Bewältigung komplexer Aufgaben, das auf Problemlösung über einfache Antworten hinaus abzielt
- Erreichte im ARC-AGI-2-Benchmark einen Validierungswert von 77,1 % und damit mehr als die doppelte Inferenzleistung im Vergleich zum vorherigen 3 Pro
- Zeigt verbesserte Schlussfolgerungsfähigkeiten bei anspruchsvollen Aufgaben wie Datenintegration, visuellen Erklärungen und kreativem Coding
- Verarbeitet verschiedene Eingabeformen wie Text, Audio, Bilder, Video und Code-Repositories und unterstützt bis zu 1 Million Token Kontext sowie 64K-Token-Ausgabe
- Google nutzt diese Preview derzeit zur Weiterentwicklung agentischer Workflows und zur Validierung für die spätere allgemeine Verfügbarkeit
Überblick über Gemini 3.1 Pro
- Gemini 3.1 Pro ist ein fortschrittliches multimodales KI-Modell für die Bewältigung komplexer Aufgaben, das auf Problemlösung über einfache Antworten hinaus abzielt
- Google bezeichnet dies als das zentrale Intelligenz-Upgrade, das die Ergebnisse von Gemini 3 Deep Think ermöglicht hat
- Verarbeitet multimodale Eingaben wie Text, Audio, Bilder, Video und Code-Repositories
- Unterstützt ein Kontextfenster von bis zu 1 Million Token und eine Ausgabe von 64K Token
- Diese Version wird schrittweise in Verbraucher-, Entwickler- und Unternehmensprodukten ausgerollt
- Die Verfügbarkeitswege sind wie folgt
- Entwickler: Gemini API in Google AI Studio, Gemini CLI, Antigravity, Android Studio
- Unternehmen: Vertex AI, Gemini Enterprise
- Verbraucher: Gemini-App, NotebookLM
Leistung und Benchmarks
- Gemini 3.1 Pro wurde mit einem Fokus auf Reasoning-Fähigkeiten für die Lösung komplexer Probleme optimiert
- Im ARC-AGI-2-Benchmark wurde ein Validierungswert von 77,1 % erreicht, mehr als doppelt so hoch wie beim vorherigen 3 Pro
- Zentrale Leistungsvergleiche (gegenüber Gemini 3 Pro):
- ARC-AGI-2: 77,1 % (vs 31,1 %)
- GPQA Diamond: 94,3 % (vs 91,9 %)
- Terminal-Bench 2.0: 68,5 % (vs 56,9 %)
- LiveCodeBench Pro: Elo 2887 (vs 2439)
- BrowseComp: 85,9 % (vs 59,2 %)
- Diese Benchmarks bewerten die Fähigkeit des Modells, völlig neue logische Muster zu lösen
- Google beschreibt es als ein „intelligenteres und leistungsfähigeres Basismodell“ und stellt es als Grundlage für die Lösung komplexer Probleme dar
Praxisnahe Einsatzbeispiele
- Gemini 3.1 Pro zeigt durch die praktische Anwendung fortgeschrittenen Reasonings vielfältige Einsatzmöglichkeiten
- Erstellung visueller Erklärungen: die Fähigkeit, komplexe Themen klar und visuell zu erklären
- Datenintegration: mehrere Datenquellen zu einer einheitlichen Sicht zusammenführen
- Umsetzung kreativer Projekte: künstlerische und gestalterische Ideen in Code umsetzen
- Konkrete Beispiele
- Codebasierte Animation: Erzeugung von SVG-Animationen für Websites aus Text-Prompts, bei minimaler Dateigröße ohne Qualitätsverlust
- Integration komplexer Systeme: Aufbau eines Dashboards zur Echtzeit-Visualisierung der Umlaufbahn der Internationalen Raumstation (ISS)
- Interaktives Design: Programmierung einer 3D-Starenschwarm-Simulation mit Hand-Tracking und musikreaktiver Benutzeroberfläche
- Kreatives Coding: Entwurf einer modernen Portfolio-Website, die die literarische Atmosphäre von „Sturmhöhe“ widerspiegelt
Bereitstellung und Zugang
- Gemini 3.1 Pro wird als Preview bereitgestellt und sammelt derzeit Nutzerfeedback
- Nutzer der Tarife Google AI Pro und Ultra können in der Gemini-App höhere Nutzungslimits verwenden
- In NotebookLM exklusiv für Pro- und Ultra-Nutzer verfügbar
- Entwickler und Unternehmen erhalten Zugriff über AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI und Android Studio
Nächste Schritte
- Google hält seit der Einführung von Gemini 3 Pro ein hohes Innovationstempo aufrecht und treibt mit dieser 3.1-Pro-Preview die Validierung von Updates und die Erweiterung agentischer Workflows voran
- Die allgemeine Verfügbarkeit (GA) ist nach Abschluss der Validierung geplant. Google erklärte, man freue sich darauf, „was Nutzer mit diesem Modell erstellen und entdecken werden“
4 Kommentare
Ich hoffe, dass die Coding-Performance bald zu Claude Opus aufschließt.
Stimmt. Als das 3.0-Preview-Modell in der CLI verfügbar wurde, war ich am ersten Tag so begeistert, dass ich sogar einen Blogpost mit meinem Eindruck geschrieben habe, aber dann ging es rapide bergab ... Deshalb nutze ich aktuell vor allem codex und claude code. Wobei Claude auch so eine Sache ist ... Ich schaue mal, ob 4.6 Opus oder Sonnet okay sind, und wenn nicht, dann vielleicht für Code codex und für sonstige Aufgaben Gemini als festen Standard..
Hacker-News-Kommentare
Ich bin wirklich gespannt auf Gemini 3.1 Pro
Bisher hat es mich fast immer eher zu Claude gezogen, und Claude Opus ist besonders stark beim Coden
Gemini ist auch fast großartig, aber noch nicht auf dem Niveau von Claude
Ich wechsle jeden Monat zwischen ChatGPT Plus ↔ Gemini Pro ↔ Claude, um keine Stärken der einzelnen Modelle zu verpassen
Als Ex-Googler hoffe ich, dass Gemini 3.1 Pro besser als 3.0 wird
Aber für die Entwicklung war Gemini für mich das frustrierendste Modell
Claude Opus ist in VS Code Copilot bei Denkfluss und Antworten ausgewogen, während Gemini nur thinking token verbraucht und das Ergebnis nicht erklärt
Es gerät oft in Schleifen, ist unbeholfen bei der Tool-Nutzung und verändert Dateien an den falschen Stellen
Deshalb habe ich die Strategie „Planung mit Gemini, Ausführung mit Claude“ genutzt, am Ende aber nur noch Claude verwendet
Während Anthropic seine Modelle offenbar an realen Projekten ausrichtet, wirkt es bei Google so, als fehle es an Tests im echten Einsatz
Es verwechselt int8 mit float oder vergisst, ob etwas normalisiert wurde
Es fühlt sich an wie jemand mit schwachem Gedächtnis
Für Architektur-Diskussionen ist es trotzdem ziemlich hilfreich
Das war der Gipfel der Ineffizienz
Bei Claude wirkt es so, als hätte es den „Coding-Prozess“ selbst gelernt, und Anthropic scheint Nutzerfeedback ins Tuning einfließen zu lassen
Google strebt wohl eher ein allgemeines Modell an und wirkt dadurch wie „ein bisschen von allem, aber nichts perfekt“
Claude oder Codex erklären ihre Herangehensweise an ein Problem, Gemini legt einfach los
Es ignoriert Änderungswünsche und verschmutzt den Arbeitsbereich
Obwohl es kostenlos nutzbar ist, verwende ich es fast nie
Anthropic scheint früh verstanden zu haben, dass „der Nutzer die Kontrolle haben muss“
OpenAI ist auf Claude-Niveau herangekommen, Google ist aber noch weit davon entfernt
Die Leute unterschätzen Googles Kosteneffizienz
Es kostet nur die Hälfte von Opus und liefert trotzdem ziemlich gute Leistung
Laut den Artificial-Analysis-Metriken ist 3.1 40 % günstiger und 30 % schneller als Opus
Für Entwicklung kann es sich lohnen, selbst bei 300 Dollar im Monat das beste Modell zu nutzen
Bei Consumer-AI wird diese Rechnung anders ausfallen
Wenn die Leistung aber mithalten kann, ist die Preisattraktivität stark
Wenn die Leistung aber ähnlich ist, sind 50 % Kostenersparnis ein echter Vorteil
Bei mir funktioniert es sowohl bei der Arbeit als auch beim Hobby-Coden gut
Trotzdem wundert mich die starke Kritik in der Community
Die aktuellen Modelle sind inzwischen zu leistungsfähig
Man kann in viel kürzerer Zeit als früher vollständige Software bauen
Aber die Verhaltensunterschiede zwischen Versionen sind so groß, dass es sich anfühlt, als würde man jeden Monat ein neues Team managen
Modelle können ohne Ankündigung ausgetauscht oder subtil verändert werden, was wie eine instabile Grundlage wirkt
Das lässt sich im sqlite-chronicle-Issue sehen
Danach hat es Blockaden in mehreren Projekten aufgelöst
Um Ideen zu gewinnen und eine Codebasis zu starten, reicht es jedoch völlig
Selbst bei demselben Code scheint es eine Art Selbstkonsistenz zu geben, bei der das Modell den von ihm selbst erzeugten Code leichter wieder bearbeiten kann
Trotzdem ist es weiterhin erstaunliche Technologie
Der Preis von Gemini 3.1 Pro bleibt unverändert
Input kostet $2/M, Output $12/M, wie in der offiziellen Dokumentation angegeben
Der Knowledge Cutoff liegt bei Januar 2025, und ein „medium thinking“-Modus wurde neu hinzugefügt
Im Vergleich zu den $5/$25 von Opus 4.6 ist der Preisunterschied groß
Man scheitert an IAM-Regeln, Billing, Produktbezeichnungen und Ähnlichem
Bei OpenAI oder Anthropic ist es deutlich einfacher
Die Monatskosten sind trotzdem ähnlich
Anthropic liegt mit Full-Stack-Optimierung vorne
Ein Modell, das wie Opus 4.6 auch ohne thinking schnell und klug ist, gibt es hier noch nicht
Gemini 3 ist noch im Preview-Status, und 2.5 soll bald eingestellt werden
Laut dem offiziellen Abschaltungsplan werden manche Modelle sogar ohne Ersatz eingestellt
Man fragt sich, wann Google überhaupt ein echtes Produktionsmodell veröffentlichen wird
Da ich ein tatsächlich laufendes System habe, sorgt das für große Unsicherheit
Ein Blick auf Killed by Google zeigt, wie hohl dieser Satz klingt
Wenn 3.0 Preview ist, wird 2.5 wohl mindestens ein Jahr bleiben
Auch in der offiziellen Doku steht, dass das genaue Enddatum nach vorheriger Ankündigung mitgeteilt wird
Gemini hat ein Problem mit UI- und Daten-Synchronisations-Race-Conditions auf Anhieb gelöst
Selbst Opus 4.6 hat dafür drei Versuche gebraucht, daher war ich überrascht
Es ist weniger weitschweifig als früher und kommt schneller auf den Punkt
Künftig werde ich wohl die Strategie nutzen: Gemini für R&D, Opus/Sonnet 4.6 für den Feinschliff
Wenn man einen einheitlichen Wrapper nutzt, der mehrere Modelle unterstützt, muss man weniger über die Modellwahl nachdenken
Am Ende zählt, „welches Modell am besten zu meinem Problem passt“
Gemini hat die „Autowaschstraßen-Frage“ perfekt beantwortet
Die Antwort war logisch in dem Sinn: „Wenn man zu Fuß hingeht, gibt es kein Auto zum Waschen, also muss man mit dem Auto hinfahren“
Gemini erklärte logisch, dass man den Elefanten mitbringen müsse, und lieferte sogar detaillierte Gründe
Das war ziemlich beeindruckendes Reasoning
Geminis Hinweis auf „Regen am Waschtag“ war zwar niedlich, wirkte aber auch etwas übertrieben selbstsicher
Beim Test „Pelikan fährt Fahrrad als SVG“ hat Gemini ein gutes Ergebnis geliefert
Siehe Ergebnis-Link
Vielleicht hat sich dank des gestiegenen ARC-AGI-Benchmarkwerts auch die visuelle Generierungsfähigkeit verbessert
Der Benchmark selbst hat an Bedeutung verloren und wirkt inzwischen eher wie eine Geschmacksfrage
Es braucht einen neuen „vibe check“-Benchmark
Eine interessante Veränderung
Am Ende braucht es eben doch noch die Hand eines menschlichen Designers
Vermutlich ist das das Ergebnis davon, dass Google gezielt auf SVG optimiert hat
Das Pelikan-SVG im Blog von Simon Willison war ziemlich gut, brauchte aber mehr als 5 Minuten zur Generierung
Das wirkt wie ein Performance-Problem zum Start
Man wollte einfach nur einen Pelikan und ein Fahrrad, aber es fügte noch Wolken, Sonne und einen Hut hinzu
Beim Coden ist es genauso: Es hört nicht auf mit unerwünschtem Refactoring und zusätzlichen Kommentaren
Jeff Deans Tweet deutet das ebenfalls an
In anderer räumlicher Wahrnehmung sind sie schwach, aber bei der präzisen Erzeugung von Formen hervorragend
Das spricht dafür, dass es sich nicht um eine allgemeine Fähigkeitssteigerung handelt, sondern wahrscheinlich um das Ergebnis gezielten Trainings
Wahrscheinlich wird die Leistung bald stillschweigend gedrosselt werden; am wichtigsten ist wohl, wie stark diese Drosselung ausfällt. (Ich habe zwar generell das Gefühl, dass die meisten KI-Modelle mit der Zeit dümmer werden, aber bei Google ist das besonders schlimm.)
Auch 3 Pro war direkt nach dem ersten Release gut, aber ich erinnere mich, dass es nach etwa einer Woche plötzlich deutlich dümmer wurde, sodass ich es am Ende nicht mehr genutzt habe.