4 Punkte von GN⁺ 2026-02-20 | 4 Kommentare | Auf WhatsApp teilen
  • Ein fortschrittliches multimodales KI-Modell für die Bewältigung komplexer Aufgaben, das auf Problemlösung über einfache Antworten hinaus abzielt
  • Erreichte im ARC-AGI-2-Benchmark einen Validierungswert von 77,1 % und damit mehr als die doppelte Inferenzleistung im Vergleich zum vorherigen 3 Pro
  • Zeigt verbesserte Schlussfolgerungsfähigkeiten bei anspruchsvollen Aufgaben wie Datenintegration, visuellen Erklärungen und kreativem Coding
  • Verarbeitet verschiedene Eingabeformen wie Text, Audio, Bilder, Video und Code-Repositories und unterstützt bis zu 1 Million Token Kontext sowie 64K-Token-Ausgabe
  • Google nutzt diese Preview derzeit zur Weiterentwicklung agentischer Workflows und zur Validierung für die spätere allgemeine Verfügbarkeit

Überblick über Gemini 3.1 Pro

  • Gemini 3.1 Pro ist ein fortschrittliches multimodales KI-Modell für die Bewältigung komplexer Aufgaben, das auf Problemlösung über einfache Antworten hinaus abzielt
    • Google bezeichnet dies als das zentrale Intelligenz-Upgrade, das die Ergebnisse von Gemini 3 Deep Think ermöglicht hat
    • Verarbeitet multimodale Eingaben wie Text, Audio, Bilder, Video und Code-Repositories
    • Unterstützt ein Kontextfenster von bis zu 1 Million Token und eine Ausgabe von 64K Token
    • Diese Version wird schrittweise in Verbraucher-, Entwickler- und Unternehmensprodukten ausgerollt
  • Die Verfügbarkeitswege sind wie folgt

Leistung und Benchmarks

  • Gemini 3.1 Pro wurde mit einem Fokus auf Reasoning-Fähigkeiten für die Lösung komplexer Probleme optimiert
    • Im ARC-AGI-2-Benchmark wurde ein Validierungswert von 77,1 % erreicht, mehr als doppelt so hoch wie beim vorherigen 3 Pro
    • Zentrale Leistungsvergleiche (gegenüber Gemini 3 Pro):
      • ARC-AGI-2: 77,1 % (vs 31,1 %)
      • GPQA Diamond: 94,3 % (vs 91,9 %)
      • Terminal-Bench 2.0: 68,5 % (vs 56,9 %)
      • LiveCodeBench Pro: Elo 2887 (vs 2439)
      • BrowseComp: 85,9 % (vs 59,2 %)
      Anzeige
    • Diese Benchmarks bewerten die Fähigkeit des Modells, völlig neue logische Muster zu lösen
  • Google beschreibt es als ein „intelligenteres und leistungsfähigeres Basismodell“ und stellt es als Grundlage für die Lösung komplexer Probleme dar

Praxisnahe Einsatzbeispiele

  • Gemini 3.1 Pro zeigt durch die praktische Anwendung fortgeschrittenen Reasonings vielfältige Einsatzmöglichkeiten
    • Erstellung visueller Erklärungen: die Fähigkeit, komplexe Themen klar und visuell zu erklären
    • Datenintegration: mehrere Datenquellen zu einer einheitlichen Sicht zusammenführen
    • Umsetzung kreativer Projekte: künstlerische und gestalterische Ideen in Code umsetzen
  • Konkrete Beispiele
    • Codebasierte Animation: Erzeugung von SVG-Animationen für Websites aus Text-Prompts, bei minimaler Dateigröße ohne Qualitätsverlust
    • Integration komplexer Systeme: Aufbau eines Dashboards zur Echtzeit-Visualisierung der Umlaufbahn der Internationalen Raumstation (ISS)
    • Interaktives Design: Programmierung einer 3D-Starenschwarm-Simulation mit Hand-Tracking und musikreaktiver Benutzeroberfläche
    • Kreatives Coding: Entwurf einer modernen Portfolio-Website, die die literarische Atmosphäre von „Sturmhöhe“ widerspiegelt
    Anzeige

Bereitstellung und Zugang

  • Gemini 3.1 Pro wird als Preview bereitgestellt und sammelt derzeit Nutzerfeedback
    • Nutzer der Tarife Google AI Pro und Ultra können in der Gemini-App höhere Nutzungslimits verwenden
    • In NotebookLM exklusiv für Pro- und Ultra-Nutzer verfügbar
    • Entwickler und Unternehmen erhalten Zugriff über AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI und Android Studio

Nächste Schritte

  • Google hält seit der Einführung von Gemini 3 Pro ein hohes Innovationstempo aufrecht und treibt mit dieser 3.1-Pro-Preview die Validierung von Updates und die Erweiterung agentischer Workflows voran
  • Die allgemeine Verfügbarkeit (GA) ist nach Abschluss der Validierung geplant. Google erklärte, man freue sich darauf, „was Nutzer mit diesem Modell erstellen und entdecken werden

4 Kommentare

 
jwh926 2026-02-20

Ich hoffe, dass die Coding-Performance bald zu Claude Opus aufschließt.

 
ifmkl 2026-02-20

Stimmt. Als das 3.0-Preview-Modell in der CLI verfügbar wurde, war ich am ersten Tag so begeistert, dass ich sogar einen Blogpost mit meinem Eindruck geschrieben habe, aber dann ging es rapide bergab ... Deshalb nutze ich aktuell vor allem codex und claude code. Wobei Claude auch so eine Sache ist ... Ich schaue mal, ob 4.6 Opus oder Sonnet okay sind, und wenn nicht, dann vielleicht für Code codex und für sonstige Aufgaben Gemini als festen Standard..

 
GN⁺ 2026-02-20
Hacker-News-Kommentare
  • Ich bin wirklich gespannt auf Gemini 3.1 Pro
    Bisher hat es mich fast immer eher zu Claude gezogen, und Claude Opus ist besonders stark beim Coden
    Gemini ist auch fast großartig, aber noch nicht auf dem Niveau von Claude
    Ich wechsle jeden Monat zwischen ChatGPT Plus ↔ Gemini Pro ↔ Claude, um keine Stärken der einzelnen Modelle zu verpassen

  • Als Ex-Googler hoffe ich, dass Gemini 3.1 Pro besser als 3.0 wird
    Aber für die Entwicklung war Gemini für mich das frustrierendste Modell
    Claude Opus ist in VS Code Copilot bei Denkfluss und Antworten ausgewogen, während Gemini nur thinking token verbraucht und das Ergebnis nicht erklärt
    Es gerät oft in Schleifen, ist unbeholfen bei der Tool-Nutzung und verändert Dateien an den falschen Stellen
    Deshalb habe ich die Strategie „Planung mit Gemini, Ausführung mit Claude“ genutzt, am Ende aber nur noch Claude verwendet
    Während Anthropic seine Modelle offenbar an realen Projekten ausrichtet, wirkt es bei Google so, als fehle es an Tests im echten Einsatz

    • Mein Projekt enthält viel Farbraum-Mathematik, und Gemini 3 Pro macht häufig grundlegende Typfehler
      Es verwechselt int8 mit float oder vergisst, ob etwas normalisiert wurde
      Es fühlt sich an wie jemand mit schwachem Gedächtnis
      Für Architektur-Diskussionen ist es trotzdem ziemlich hilfreich
    • Als ich Gemini 3 in Openclaw genutzt habe, kostete es 10–20 Dollar pro Stunde und 1,5–3 Dollar pro Prompt
      Das war der Gipfel der Ineffizienz
    • Die Modellleistung hängt letztlich von Tuning und Tool-Integration ab
      Bei Claude wirkt es so, als hätte es den „Coding-Prozess“ selbst gelernt, und Anthropic scheint Nutzerfeedback ins Tuning einfließen zu lassen
      Google strebt wohl eher ein allgemeines Modell an und wirkt dadurch wie „ein bisschen von allem, aber nichts perfekt“
    • Gemini 3.0 war für mich auf dem Niveau von nicht benutzbar
      Claude oder Codex erklären ihre Herangehensweise an ein Problem, Gemini legt einfach los
      Es ignoriert Änderungswünsche und verschmutzt den Arbeitsbereich
      Obwohl es kostenlos nutzbar ist, verwende ich es fast nie
      Anthropic scheint früh verstanden zu haben, dass „der Nutzer die Kontrolle haben muss“
    • Gemini ist schwach bei agentischen Aufgaben
      OpenAI ist auf Claude-Niveau herangekommen, Google ist aber noch weit davon entfernt
  • Die Leute unterschätzen Googles Kosteneffizienz
    Es kostet nur die Hälfte von Opus und liefert trotzdem ziemlich gute Leistung
    Laut den Artificial-Analysis-Metriken ist 3.1 40 % günstiger und 30 % schneller als Opus

    • Andererseits gibt es die Sichtweise, dass „eine großartige Antwort für 2 Cent besser ist als eine mittelmäßige für 1 Cent“
      Für Entwicklung kann es sich lohnen, selbst bei 300 Dollar im Monat das beste Modell zu nutzen
      Bei Consumer-AI wird diese Rechnung anders ausfallen
    • Natürlich bringt auch der halbe Preis nichts, wenn es die Arbeit nicht richtig erledigt
      Wenn die Leistung aber mithalten kann, ist die Preisattraktivität stark
    • Wenn Opus 20 % besseren Code erzeugt, ist dieser Unterschied in echten Projekten groß
      Wenn die Leistung aber ähnlich ist, sind 50 % Kostenersparnis ein echter Vorteil
    • Gemini hat auch in Benchmarks gute Werte, und die DeepMind-Ingenieure sind hervorragend
      Bei mir funktioniert es sowohl bei der Arbeit als auch beim Hobby-Coden gut
      Trotzdem wundert mich die starke Kritik in der Community
    • Deepseek kostet 2 % von Opus, wird aber von den meisten trotzdem nicht fürs Coden verwendet
  • Die aktuellen Modelle sind inzwischen zu leistungsfähig
    Man kann in viel kürzerer Zeit als früher vollständige Software bauen
    Aber die Verhaltensunterschiede zwischen Versionen sind so groß, dass es sich anfühlt, als würde man jeden Monat ein neues Team managen
    Modelle können ohne Ankündigung ausgetauscht oder subtil verändert werden, was wie eine instabile Grundlage wirkt

    • Opus 4.6 hat ein Problem gelöst, das o4-mini zuvor nicht knacken konnte
      Das lässt sich im sqlite-chronicle-Issue sehen
      Danach hat es Blockaden in mehreren Projekten aufgelöst
    • Ich habe Modelle von Anthropic, Google und OpenAI alle genutzt, aber zum Bau eines vollständigen Produkts reicht es noch nicht
      Um Ideen zu gewinnen und eine Codebasis zu starten, reicht es jedoch völlig
    • Eine mit GPT 5.1 codex max gebaute App funktioniert immer noch gut
      Selbst bei demselben Code scheint es eine Art Selbstkonsistenz zu geben, bei der das Modell den von ihm selbst erzeugten Code leichter wieder bearbeiten kann
    • In der Praxis fühlt es sich an, als würde man einen „genialen, aber seltsamen Ingenieur“ managen
      Trotzdem ist es weiterhin erstaunliche Technologie
    • Zu der Formulierung „Für den Preis eines Sushi-Essens einen genialen Ingenieur einen Monat lang beschäftigen“ kam auch der Witz: „Und dann baut er dir damit einen Taschenrechner?“
  • Der Preis von Gemini 3.1 Pro bleibt unverändert
    Input kostet $2/M, Output $12/M, wie in der offiziellen Dokumentation angegeben
    Der Knowledge Cutoff liegt bei Januar 2025, und ein „medium thinking“-Modus wurde neu hinzugefügt
    Im Vergleich zu den $5/$25 von Opus 4.6 ist der Preisunterschied groß

    • Wer einen CLI-Agenten für Unternehmen nutzen will, wird durch Googles komplizierte Abläufe ausgebremst
      Man scheitert an IAM-Regeln, Billing, Produktbezeichnungen und Ähnlichem
      Bei OpenAI oder Anthropic ist es deutlich einfacher
      Die Monatskosten sind trotzdem ähnlich
    • Wenn sich die Leistung bei langem Reasoning in Vendor-Bench 2 nicht verbessert, werde ich nicht von CC wechseln
      Anthropic liegt mit Full-Stack-Optimierung vorne
    • Es gibt weiterhin kein minimal reasoning
      Ein Modell, das wie Opus 4.6 auch ohne thinking schnell und klug ist, gibt es hier noch nicht
    • Es wirkt interessant, weil es billiger als Codex zu sein scheint
    • Der Knowledge Cutoff Januar 2025 wirkt schon etwas alt
  • Gemini 3 ist noch im Preview-Status, und 2.5 soll bald eingestellt werden
    Laut dem offiziellen Abschaltungsplan werden manche Modelle sogar ohne Ersatz eingestellt
    Man fragt sich, wann Google überhaupt ein echtes Produktionsmodell veröffentlichen wird

    • Ich stimme zu. Sich auf eingestellte oder nie veröffentlichte Modelle zu verlassen, ist riskant
      Da ich ein tatsächlich laufendes System habe, sorgt das für große Unsicherheit
    • Du hast den Link wohl falsch gelesen. Nur 2.5-preview wird eingestellt, die reguläre 2.5-Version bleibt bis Herbst 2026 erhalten
    • Google würde doch niemals Software einstellen, auf die sich viele Nutzer verlassen?
      Ein Blick auf Killed by Google zeigt, wie hohl dieser Satz klingt
    • Genau in solchen Situationen denkt man: „Ah, ja, das ist wirklich typisch Google“
    • Es gibt noch keine Ankündigung zur Einstellung von 2.5
      Wenn 3.0 Preview ist, wird 2.5 wohl mindestens ein Jahr bleiben
      Auch in der offiziellen Doku steht, dass das genaue Enddatum nach vorheriger Ankündigung mitgeteilt wird
  • Gemini hat ein Problem mit UI- und Daten-Synchronisations-Race-Conditions auf Anhieb gelöst
    Selbst Opus 4.6 hat dafür drei Versuche gebraucht, daher war ich überrascht
    Es ist weniger weitschweifig als früher und kommt schneller auf den Punkt
    Künftig werde ich wohl die Strategie nutzen: Gemini für R&D, Opus/Sonnet 4.6 für den Feinschliff

    • Meine Kombination ist: Opus 4.6 für Code-Recherche, GPT 5.3 codex für das Schreiben von Code, Gemini für wissenschaftliche und mathematische Algorithmen und Grok für sicherheitsbezogene Anfragen
      Wenn man einen einheitlichen Wrapper nutzt, der mehrere Modelle unterstützt, muss man weniger über die Modellwahl nachdenken
      Am Ende zählt, „welches Modell am besten zu meinem Problem passt“
  • Gemini hat die „Autowaschstraßen-Frage“ perfekt beantwortet
    Die Antwort war logisch in dem Sinn: „Wenn man zu Fuß hingeht, gibt es kein Auto zum Waschen, also muss man mit dem Auto hinfahren“

    • Vielleicht war die Frage in den Trainingsdaten, also habe ich sie stattdessen in eine Elefanten-Waschstraßen-Frage umgewandelt
      Gemini erklärte logisch, dass man den Elefanten mitbringen müsse, und lieferte sogar detaillierte Gründe
      Das war ziemlich beeindruckendes Reasoning
    • GPT-OSS-120b hat auf dieselbe Frage ebenfalls die richtige Antwort gegeben
      Geminis Hinweis auf „Regen am Waschtag“ war zwar niedlich, wirkte aber auch etwas übertrieben selbstsicher
    • Entscheidend ist nicht, dass die richtige Antwort getroffen wurde, sondern ob der Grund korrekt hergeleitet wurde
    • Tatsächlich hatten Gemini 3 Pro und Flash diese Frage schon vorher richtig beantwortet
    • Die Antwort ist allerdings so weitschweifig, dass sie eher ermüdet
  • Beim Test „Pelikan fährt Fahrrad als SVG“ hat Gemini ein gutes Ergebnis geliefert
    Siehe Ergebnis-Link
    Vielleicht hat sich dank des gestiegenen ARC-AGI-Benchmarkwerts auch die visuelle Generierungsfähigkeit verbessert

    • Animierte SVGs gehören inzwischen schon zu den Standardbeispielen
      Der Benchmark selbst hat an Bedeutung verloren und wirkt inzwischen eher wie eine Geschmacksfrage
      Es braucht einen neuen „vibe check“-Benchmark
    • Mein Ergebnis hatte einen stärkeren 3D-Stil als einen Pelikan-Look
      Eine interessante Veränderung
    • An meinem persönlichen SVG-Benchmark, einem Querschnitt des menschlichen Herzens, scheitert es aber weiterhin
      Am Ende braucht es eben doch noch die Hand eines menschlichen Designers
    • Wenn die Modelle besser werden, könnten sie auch SVG-basierte Echtzeit-UIs oder interaktive Medien erzeugen
    • Andere Vektorformate wie PostScript machen dagegen kaum Fortschritte
      Vermutlich ist das das Ergebnis davon, dass Google gezielt auf SVG optimiert hat
  • Das Pelikan-SVG im Blog von Simon Willison war ziemlich gut, brauchte aber mehr als 5 Minuten zur Generierung
    Das wirkt wie ein Performance-Problem zum Start

    • Das Problem bei Gemini ist immer seine Haltung, „zu viel helfen zu wollen“
      Man wollte einfach nur einen Pelikan und ein Fahrrad, aber es fügte noch Wolken, Sonne und einen Hut hinzu
      Beim Coden ist es genauso: Es hört nicht auf mit unerwünschtem Refactoring und zusätzlichen Kommentaren
    • Lustig ist, dass solche Tests offenbar dazu geführt haben, dass Google tatsächlich viel Aufwand in SVG-Generierung mit Tieren und Fahrzeugen gesteckt hat
      Jeff Deans Tweet deutet das ebenfalls an
    • Ich frage mich, warum LLMs gerade bei SVG so stark sind
      In anderer räumlicher Wahrnehmung sind sie schwach, aber bei der präzisen Erzeugung von Formen hervorragend
    • Bald konkurrieren die Modelle vermutlich im Benchmark „Pelikan-auf-Fahrrad-SVG erzeugen“
    • Im offiziellen Post im Google-Blog wird SVG-Generierung als wichtiger Anwendungsfall erwähnt
      Das spricht dafür, dass es sich nicht um eine allgemeine Fähigkeitssteigerung handelt, sondern wahrscheinlich um das Ergebnis gezielten Trainings
 
clumsily 2026-02-20

Wahrscheinlich wird die Leistung bald stillschweigend gedrosselt werden; am wichtigsten ist wohl, wie stark diese Drosselung ausfällt. (Ich habe zwar generell das Gefühl, dass die meisten KI-Modelle mit der Zeit dümmer werden, aber bei Google ist das besonders schlimm.)
Auch 3 Pro war direkt nach dem ersten Release gut, aber ich erinnere mich, dass es nach etwa einer Woche plötzlich deutlich dümmer wurde, sodass ich es am Ende nicht mehr genutzt habe.