Gemini 3.1 Pro

(blog.google)

4 Punkte von GN⁺ 2026-02-20 | 4 Kommentare | Auf WhatsApp teilen

Ein fortschrittliches multimodales KI-Modell für die Bewältigung komplexer Aufgaben, das auf Problemlösung über einfache Antworten hinaus abzielt
Erreichte im ARC-AGI-2-Benchmark einen Validierungswert von 77,1 % und damit mehr als die doppelte Inferenzleistung im Vergleich zum vorherigen 3 Pro
Zeigt verbesserte Schlussfolgerungsfähigkeiten bei anspruchsvollen Aufgaben wie Datenintegration, visuellen Erklärungen und kreativem Coding
Verarbeitet verschiedene Eingabeformen wie Text, Audio, Bilder, Video und Code-Repositories und unterstützt bis zu 1 Million Token Kontext sowie 64K-Token-Ausgabe
Google nutzt diese Preview derzeit zur Weiterentwicklung agentischer Workflows und zur Validierung für die spätere allgemeine Verfügbarkeit

Überblick über Gemini 3.1 Pro

Gemini 3.1 Pro ist ein fortschrittliches multimodales KI-Modell für die Bewältigung komplexer Aufgaben, das auf Problemlösung über einfache Antworten hinaus abzielt
- Google bezeichnet dies als das zentrale Intelligenz-Upgrade, das die Ergebnisse von Gemini 3 Deep Think ermöglicht hat
- Verarbeitet multimodale Eingaben wie Text, Audio, Bilder, Video und Code-Repositories
- Unterstützt ein Kontextfenster von bis zu 1 Million Token und eine Ausgabe von 64K Token
- Diese Version wird schrittweise in Verbraucher-, Entwickler- und Unternehmensprodukten ausgerollt
Die Verfügbarkeitswege sind wie folgt
- Entwickler: Gemini API in Google AI Studio, Gemini CLI, Antigravity, Android Studio
- Unternehmen: Vertex AI, Gemini Enterprise
- Verbraucher: Gemini-App, NotebookLM

Leistung und Benchmarks

Gemini 3.1 Pro wurde mit einem Fokus auf Reasoning-Fähigkeiten für die Lösung komplexer Probleme optimiert
- Im ARC-AGI-2-Benchmark wurde ein Validierungswert von 77,1 % erreicht, mehr als doppelt so hoch wie beim vorherigen 3 Pro
- Zentrale Leistungsvergleiche (gegenüber Gemini 3 Pro):
  - ARC-AGI-2: 77,1 % (vs 31,1 %)
  - GPQA Diamond: 94,3 % (vs 91,9 %)
  - Terminal-Bench 2.0: 68,5 % (vs 56,9 %)
  - LiveCodeBench Pro: Elo 2887 (vs 2439)
  - BrowseComp: 85,9 % (vs 59,2 %)
- Diese Benchmarks bewerten die Fähigkeit des Modells, völlig neue logische Muster zu lösen
Google beschreibt es als ein „intelligenteres und leistungsfähigeres Basismodell“ und stellt es als Grundlage für die Lösung komplexer Probleme dar

Praxisnahe Einsatzbeispiele

Gemini 3.1 Pro zeigt durch die praktische Anwendung fortgeschrittenen Reasonings vielfältige Einsatzmöglichkeiten
- Erstellung visueller Erklärungen: die Fähigkeit, komplexe Themen klar und visuell zu erklären
- Datenintegration: mehrere Datenquellen zu einer einheitlichen Sicht zusammenführen
- Umsetzung kreativer Projekte: künstlerische und gestalterische Ideen in Code umsetzen
Konkrete Beispiele
- Codebasierte Animation: Erzeugung von SVG-Animationen für Websites aus Text-Prompts, bei minimaler Dateigröße ohne Qualitätsverlust
- Integration komplexer Systeme: Aufbau eines Dashboards zur Echtzeit-Visualisierung der Umlaufbahn der Internationalen Raumstation (ISS)
- Interaktives Design: Programmierung einer 3D-Starenschwarm-Simulation mit Hand-Tracking und musikreaktiver Benutzeroberfläche
- Kreatives Coding: Entwurf einer modernen Portfolio-Website, die die literarische Atmosphäre von „Sturmhöhe“ widerspiegelt

Bereitstellung und Zugang

Gemini 3.1 Pro wird als Preview bereitgestellt und sammelt derzeit Nutzerfeedback
- Nutzer der Tarife Google AI Pro und Ultra können in der Gemini-App höhere Nutzungslimits verwenden
- In NotebookLM exklusiv für Pro- und Ultra-Nutzer verfügbar
- Entwickler und Unternehmen erhalten Zugriff über AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI und Android Studio

Nächste Schritte

Google hält seit der Einführung von Gemini 3 Pro ein hohes Innovationstempo aufrecht und treibt mit dieser 3.1-Pro-Preview die Validierung von Updates und die Erweiterung agentischer Workflows voran
Die allgemeine Verfügbarkeit (GA) ist nach Abschluss der Validierung geplant. Google erklärte, man freue sich darauf, „was Nutzer mit diesem Modell erstellen und entdecken werden“

4 Kommentare

jwh926 2026-02-20

Ich hoffe, dass die Coding-Performance bald zu Claude Opus aufschließt.

ifmkl 2026-02-20

Stimmt. Als das 3.0-Preview-Modell in der CLI verfügbar wurde, war ich am ersten Tag so begeistert, dass ich sogar einen Blogpost mit meinem Eindruck geschrieben habe, aber dann ging es rapide bergab ... Deshalb nutze ich aktuell vor allem codex und claude code. Wobei Claude auch so eine Sache ist ... Ich schaue mal, ob 4.6 Opus oder Sonnet okay sind, und wenn nicht, dann vielleicht für Code codex und für sonstige Aufgaben Gemini als festen Standard..

GN⁺ 2026-02-20

Hacker-News-Kommentare

Ich bin wirklich gespannt auf Gemini 3.1 Pro
Bisher hat es mich fast immer eher zu Claude gezogen, und Claude Opus ist besonders stark beim Coden
Gemini ist auch fast großartig, aber noch nicht auf dem Niveau von Claude
Ich wechsle jeden Monat zwischen ChatGPT Plus ↔ Gemini Pro ↔ Claude, um keine Stärken der einzelnen Modelle zu verpassen
Als Ex-Googler hoffe ich, dass Gemini 3.1 Pro besser als 3.0 wird
Aber für die Entwicklung war Gemini für mich das frustrierendste Modell
Claude Opus ist in VS Code Copilot bei Denkfluss und Antworten ausgewogen, während Gemini nur thinking token verbraucht und das Ergebnis nicht erklärt
Es gerät oft in Schleifen, ist unbeholfen bei der Tool-Nutzung und verändert Dateien an den falschen Stellen
Deshalb habe ich die Strategie „Planung mit Gemini, Ausführung mit Claude“ genutzt, am Ende aber nur noch Claude verwendet
Während Anthropic seine Modelle offenbar an realen Projekten ausrichtet, wirkt es bei Google so, als fehle es an Tests im echten Einsatz
- Mein Projekt enthält viel Farbraum-Mathematik, und Gemini 3 Pro macht häufig grundlegende Typfehler
  Es verwechselt int8 mit float oder vergisst, ob etwas normalisiert wurde
  Es fühlt sich an wie jemand mit schwachem Gedächtnis
  Für Architektur-Diskussionen ist es trotzdem ziemlich hilfreich
- Als ich Gemini 3 in Openclaw genutzt habe, kostete es 10–20 Dollar pro Stunde und 1,5–3 Dollar pro Prompt
  Das war der Gipfel der Ineffizienz
- Die Modellleistung hängt letztlich von Tuning und Tool-Integration ab
  Bei Claude wirkt es so, als hätte es den „Coding-Prozess“ selbst gelernt, und Anthropic scheint Nutzerfeedback ins Tuning einfließen zu lassen
  Google strebt wohl eher ein allgemeines Modell an und wirkt dadurch wie „ein bisschen von allem, aber nichts perfekt“
- Gemini 3.0 war für mich auf dem Niveau von nicht benutzbar
  Claude oder Codex erklären ihre Herangehensweise an ein Problem, Gemini legt einfach los
  Es ignoriert Änderungswünsche und verschmutzt den Arbeitsbereich
  Obwohl es kostenlos nutzbar ist, verwende ich es fast nie
  Anthropic scheint früh verstanden zu haben, dass „der Nutzer die Kontrolle haben muss“
- Gemini ist schwach bei agentischen Aufgaben
  OpenAI ist auf Claude-Niveau herangekommen, Google ist aber noch weit davon entfernt
Die Leute unterschätzen Googles Kosteneffizienz
Es kostet nur die Hälfte von Opus und liefert trotzdem ziemlich gute Leistung
Laut den Artificial-Analysis-Metriken ist 3.1 40 % günstiger und 30 % schneller als Opus
- Andererseits gibt es die Sichtweise, dass „eine großartige Antwort für 2 Cent besser ist als eine mittelmäßige für 1 Cent“
  Für Entwicklung kann es sich lohnen, selbst bei 300 Dollar im Monat das beste Modell zu nutzen
  Bei Consumer-AI wird diese Rechnung anders ausfallen
- Natürlich bringt auch der halbe Preis nichts, wenn es die Arbeit nicht richtig erledigt
  Wenn die Leistung aber mithalten kann, ist die Preisattraktivität stark
- Wenn Opus 20 % besseren Code erzeugt, ist dieser Unterschied in echten Projekten groß
  Wenn die Leistung aber ähnlich ist, sind 50 % Kostenersparnis ein echter Vorteil
- Gemini hat auch in Benchmarks gute Werte, und die DeepMind-Ingenieure sind hervorragend
  Bei mir funktioniert es sowohl bei der Arbeit als auch beim Hobby-Coden gut
  Trotzdem wundert mich die starke Kritik in der Community
- Deepseek kostet 2 % von Opus, wird aber von den meisten trotzdem nicht fürs Coden verwendet
Die aktuellen Modelle sind inzwischen zu leistungsfähig
Man kann in viel kürzerer Zeit als früher vollständige Software bauen
Aber die Verhaltensunterschiede zwischen Versionen sind so groß, dass es sich anfühlt, als würde man jeden Monat ein neues Team managen
Modelle können ohne Ankündigung ausgetauscht oder subtil verändert werden, was wie eine instabile Grundlage wirkt
- Opus 4.6 hat ein Problem gelöst, das o4-mini zuvor nicht knacken konnte
  Das lässt sich im sqlite-chronicle-Issue sehen
  Danach hat es Blockaden in mehreren Projekten aufgelöst
- Ich habe Modelle von Anthropic, Google und OpenAI alle genutzt, aber zum Bau eines vollständigen Produkts reicht es noch nicht
  Um Ideen zu gewinnen und eine Codebasis zu starten, reicht es jedoch völlig
- Eine mit GPT 5.1 codex max gebaute App funktioniert immer noch gut
  Selbst bei demselben Code scheint es eine Art Selbstkonsistenz zu geben, bei der das Modell den von ihm selbst erzeugten Code leichter wieder bearbeiten kann
- In der Praxis fühlt es sich an, als würde man einen „genialen, aber seltsamen Ingenieur“ managen
  Trotzdem ist es weiterhin erstaunliche Technologie
- Zu der Formulierung „Für den Preis eines Sushi-Essens einen genialen Ingenieur einen Monat lang beschäftigen“ kam auch der Witz: „Und dann baut er dir damit einen Taschenrechner?“
Der Preis von Gemini 3.1 Pro bleibt unverändert
Input kostet $2/M, Output $12/M, wie in der offiziellen Dokumentation angegeben
Der Knowledge Cutoff liegt bei Januar 2025, und ein „medium thinking“-Modus wurde neu hinzugefügt
Im Vergleich zu den $5/$25 von Opus 4.6 ist der Preisunterschied groß
- Wer einen CLI-Agenten für Unternehmen nutzen will, wird durch Googles komplizierte Abläufe ausgebremst
  Man scheitert an IAM-Regeln, Billing, Produktbezeichnungen und Ähnlichem
  Bei OpenAI oder Anthropic ist es deutlich einfacher
  Die Monatskosten sind trotzdem ähnlich
- Wenn sich die Leistung bei langem Reasoning in Vendor-Bench 2 nicht verbessert, werde ich nicht von CC wechseln
  Anthropic liegt mit Full-Stack-Optimierung vorne
- Es gibt weiterhin kein minimal reasoning
  Ein Modell, das wie Opus 4.6 auch ohne thinking schnell und klug ist, gibt es hier noch nicht
- Es wirkt interessant, weil es billiger als Codex zu sein scheint
- Der Knowledge Cutoff Januar 2025 wirkt schon etwas alt
Gemini 3 ist noch im Preview-Status, und 2.5 soll bald eingestellt werden
Laut dem offiziellen Abschaltungsplan werden manche Modelle sogar ohne Ersatz eingestellt
Man fragt sich, wann Google überhaupt ein echtes Produktionsmodell veröffentlichen wird
- Ich stimme zu. Sich auf eingestellte oder nie veröffentlichte Modelle zu verlassen, ist riskant
  Da ich ein tatsächlich laufendes System habe, sorgt das für große Unsicherheit
- Du hast den Link wohl falsch gelesen. Nur 2.5-preview wird eingestellt, die reguläre 2.5-Version bleibt bis Herbst 2026 erhalten
- Google würde doch niemals Software einstellen, auf die sich viele Nutzer verlassen?
  Ein Blick auf Killed by Google zeigt, wie hohl dieser Satz klingt
- Genau in solchen Situationen denkt man: „Ah, ja, das ist wirklich typisch Google“
- Es gibt noch keine Ankündigung zur Einstellung von 2.5
  Wenn 3.0 Preview ist, wird 2.5 wohl mindestens ein Jahr bleiben
  Auch in der offiziellen Doku steht, dass das genaue Enddatum nach vorheriger Ankündigung mitgeteilt wird
Gemini hat ein Problem mit UI- und Daten-Synchronisations-Race-Conditions auf Anhieb gelöst
Selbst Opus 4.6 hat dafür drei Versuche gebraucht, daher war ich überrascht
Es ist weniger weitschweifig als früher und kommt schneller auf den Punkt
Künftig werde ich wohl die Strategie nutzen: Gemini für R&D, Opus/Sonnet 4.6 für den Feinschliff
- Meine Kombination ist: Opus 4.6 für Code-Recherche, GPT 5.3 codex für das Schreiben von Code, Gemini für wissenschaftliche und mathematische Algorithmen und Grok für sicherheitsbezogene Anfragen
  Wenn man einen einheitlichen Wrapper nutzt, der mehrere Modelle unterstützt, muss man weniger über die Modellwahl nachdenken
  Am Ende zählt, „welches Modell am besten zu meinem Problem passt“
Gemini hat die „Autowaschstraßen-Frage“ perfekt beantwortet
Die Antwort war logisch in dem Sinn: „Wenn man zu Fuß hingeht, gibt es kein Auto zum Waschen, also muss man mit dem Auto hinfahren“
- Vielleicht war die Frage in den Trainingsdaten, also habe ich sie stattdessen in eine Elefanten-Waschstraßen-Frage umgewandelt
  Gemini erklärte logisch, dass man den Elefanten mitbringen müsse, und lieferte sogar detaillierte Gründe
  Das war ziemlich beeindruckendes Reasoning
- GPT-OSS-120b hat auf dieselbe Frage ebenfalls die richtige Antwort gegeben
  Geminis Hinweis auf „Regen am Waschtag“ war zwar niedlich, wirkte aber auch etwas übertrieben selbstsicher
- Entscheidend ist nicht, dass die richtige Antwort getroffen wurde, sondern ob der Grund korrekt hergeleitet wurde
- Tatsächlich hatten Gemini 3 Pro und Flash diese Frage schon vorher richtig beantwortet
- Die Antwort ist allerdings so weitschweifig, dass sie eher ermüdet
Beim Test „Pelikan fährt Fahrrad als SVG“ hat Gemini ein gutes Ergebnis geliefert
Siehe Ergebnis-Link
Vielleicht hat sich dank des gestiegenen ARC-AGI-Benchmarkwerts auch die visuelle Generierungsfähigkeit verbessert
- Animierte SVGs gehören inzwischen schon zu den Standardbeispielen
  Der Benchmark selbst hat an Bedeutung verloren und wirkt inzwischen eher wie eine Geschmacksfrage
  Es braucht einen neuen „vibe check“-Benchmark
- Mein Ergebnis hatte einen stärkeren 3D-Stil als einen Pelikan-Look
  Eine interessante Veränderung
- An meinem persönlichen SVG-Benchmark, einem Querschnitt des menschlichen Herzens, scheitert es aber weiterhin
  Am Ende braucht es eben doch noch die Hand eines menschlichen Designers
- Wenn die Modelle besser werden, könnten sie auch SVG-basierte Echtzeit-UIs oder interaktive Medien erzeugen
- Andere Vektorformate wie PostScript machen dagegen kaum Fortschritte
  Vermutlich ist das das Ergebnis davon, dass Google gezielt auf SVG optimiert hat
Das Pelikan-SVG im Blog von Simon Willison war ziemlich gut, brauchte aber mehr als 5 Minuten zur Generierung
Das wirkt wie ein Performance-Problem zum Start
- Das Problem bei Gemini ist immer seine Haltung, „zu viel helfen zu wollen“
  Man wollte einfach nur einen Pelikan und ein Fahrrad, aber es fügte noch Wolken, Sonne und einen Hut hinzu
  Beim Coden ist es genauso: Es hört nicht auf mit unerwünschtem Refactoring und zusätzlichen Kommentaren
- Lustig ist, dass solche Tests offenbar dazu geführt haben, dass Google tatsächlich viel Aufwand in SVG-Generierung mit Tieren und Fahrzeugen gesteckt hat
  Jeff Deans Tweet deutet das ebenfalls an
- Ich frage mich, warum LLMs gerade bei SVG so stark sind
  In anderer räumlicher Wahrnehmung sind sie schwach, aber bei der präzisen Erzeugung von Formen hervorragend
- Bald konkurrieren die Modelle vermutlich im Benchmark „Pelikan-auf-Fahrrad-SVG erzeugen“
- Im offiziellen Post im Google-Blog wird SVG-Generierung als wichtiger Anwendungsfall erwähnt
  Das spricht dafür, dass es sich nicht um eine allgemeine Fähigkeitssteigerung handelt, sondern wahrscheinlich um das Ergebnis gezielten Trainings

clumsily 2026-02-20

Wahrscheinlich wird die Leistung bald stillschweigend gedrosselt werden; am wichtigsten ist wohl, wie stark diese Drosselung ausfällt. (Ich habe zwar generell das Gefühl, dass die meisten KI-Modelle mit der Zeit dümmer werden, aber bei Google ist das besonders schlimm.)
Auch 3 Pro war direkt nach dem ersten Release gut, aber ich erinnere mich, dass es nach etwa einer Woche plötzlich deutlich dümmer wurde, sodass ich es am Ende nicht mehr genutzt habe.