Gemini 3 – Google stellt sein neuestes Gemini-AI-Modell vor

(blog.google)

19 Punkte von GN⁺ 2025-11-19 | 3 Kommentare | Auf WhatsApp teilen

Google hat Gemini 3, sein intelligentestes AI-Modell, vorgestellt und bietet damit verbesserte Schlussfolgerungsfähigkeit und multimodales Verständnis
Gemini 3 Pro erzielt gegenüber der vorherigen Generation in allen wichtigen Benchmarks Bestwerte und verarbeitet verschiedenste Eingaben wie Text, Bilder, Videos und Code
Der Deep-Think-Modus ergänzt erweiterte Schlussfolgerungsfunktionen zur Lösung komplexer Probleme und wird schrittweise für Ultra-Abonnenten bereitgestellt
Gemini 3 unterstützt Lernen, Entwicklung und Planung umfassend und ist in Google Search, der Gemini-App, AI Studio, Vertex AI und weiteren Diensten verfügbar
Mit Gemini 3 beschleunigt Google den Übergang in das Zeitalter intelligenter Agenten und personalisierter AI

Überblick über Gemini 3

Gemini 3 ist das von Google entwickelte intelligenteste AI-Modell und soll Nutzern helfen, jede Art von Idee umzusetzen
Es kombiniert multimodales Verständnis mit agentischem Coding (Agentic Coding) und verarbeitet integriert verschiedene Eingaben wie Text, Bilder, Videos, Audio und Code
Gemini 3 Pro ist im gesamten Google-Ökosystem verfügbar, darunter AI Studio, Vertex AI, die Gemini-App und die Google-Antigravity-Plattform
Der Deep-Think-Modus unterstützt mit verbesserter Schlussfolgerungsfähigkeit das Lösen komplexer Probleme und soll für Abonnenten von Google AI Ultra verfügbar werden

Botschaft des CEO

Sundar Pichai verwies darauf, dass das Gemini-Projekt nach zwei Jahren Ergebnisse wie 2 Milliarden monatliche Nutzer von AI Overviews, 650 Millionen Nutzer der Gemini-App und mehr als 130.000 teilnehmende Entwickler erreicht habe
Googles Full-Stack-Struktur für AI-Innovationen (Infrastruktur–Forschung–Modelle–Produkte) ermögliche eine schnelle Verbreitung der Technologie
Gemini 3 vereint die multimodalen, schlussfolgernden und agentischen Fähigkeiten der vorherigen Generation in einem Modell und erfasst Absicht und Kontext der Nutzer präziser
Gemini 3 startet gleichzeitig in dem AI Mode der Search, der Gemini-App, AI Studio, Vertex AI und Google Antigravity

Leistung von Gemini 3 Pro

Gemini 3 Pro erzielte in allen wichtigen AI-Benchmarks bessere Werte als 2.5 Pro
- Auf dem LMArena-Leaderboard erreichte es 1501 Elo, bei Humanity’s Last Exam 37.5%, bei GPQA Diamond 91.9% und bei MathArena Apex 23.4%
- In den multimodalen Benchmarks MMMU-Pro 81%, Video-MMMU 87.6% und SimpleQA Verified 72.1%
Es liefert präzise und knappe Antworten und kann etwa zur Visualisierung wissenschaftlicher Konzepte oder zur Konkretisierung kreativer Ideen genutzt werden
Als Beispiele werden die Generierung von Code zur Visualisierung von Plasmaströmungen in einem Tokamak sowie das Verfassen eines Gedichts zum Thema Kernfusionsphysik genannt

Gemini 3 Deep Think

Der Deep-Think-Modus verstärkt die Schlussfolgerungs- und multimodalen Verständnisfähigkeiten von Gemini 3 noch weiter
- Mit 41.0% bei Humanity’s Last Exam, 93.8% bei GPQA Diamond und 45.1% bei ARC-AGI-2 erreicht er Spitzenwerte
Damit wird fortgeschrittene Schlussfolgerungsfähigkeit bei der Lösung komplexer Probleme und neuer Herausforderungen belegt

Lernen (Learn anything)

Gemini 3 unterstützt das Lernen mithilfe eines Kontextfensters von 1 Million Tokens und multimodaler Schlussfolgerung
- Übersetzung handschriftlicher Rezepte und Erstellung eines digitalen Kochbuchs
- Zusammenfassung langer Vorlesungen und Fachaufsätze sowie Generierung interaktiver Lernkarten oder Visualisierungscode
- Erstellung personalisierter Trainingspläne durch Analyse von Sportvideos
Der AI Mode in Google Search erzeugt auf Basis von Gemini 3 in Echtzeit immersive visuelle Layouts und interaktive Tools

Entwicklung (Build anything)

Gemini 3 ist stark in Zero-Shot-Generierung und bei der Verarbeitung komplexer Prompts und erreicht 1487 Elo in der WebDev Arena
- Bei Terminal-Bench 2.0 54.2% und bei SWE-bench Verified 76.2%, was die Tool-Nutzung und die Leistung von Coding-Agenten verbessert
Entwickeln ist in Google AI Studio, Vertex AI, Gemini CLI und Google Antigravity möglich
Unterstützung gibt es auch auf Drittplattformen wie Cursor, GitHub, JetBrains, Manus und Replit

Google Antigravity: agentenzentrierte Entwicklungsumgebung

Google Antigravity ist eine auf Gemini 3 basierende agentische Entwicklungsplattform, in der Entwickler mit AI auf arbeitsspezifischer Ebene zusammenarbeiten können
Die Agenten greifen direkt auf Editor, Terminal und Browser zu und führen das Schreiben, Ausführen und Prüfen von Code automatisch durch
Integriert sind Gemini 3 Pro sowie das Gemini 2.5 Computer Use-Modell und das Nano Banana-Bildbearbeitungsmodell
Als Beispiel wird ein Workflow gezeigt, in dem ein Agent eine Flug-Tracking-App selbst entwirft, programmiert und validiert

Planung (Plan anything)

Gemini 3 stärkt die Fähigkeit zur langfristigen Planung und erreicht Platz 1 im Vending-Bench-2-Leaderboard
- In einem simulierten Automaten-Business hielt es über ein Jahr hinweg stabile Entscheidungen aufrecht
Auch die Automatisierung komplexer mehrstufiger Aufgaben ist möglich, etwa das Organisieren von E-Mails oder das Buchen von Services
Mit der Funktion Gemini Agent können Ultra-Abonnenten dies direkt in der Gemini-App ausprobieren

Verantwortungsvolle Entwicklung

Gemini 3 ist das sicherste Modell unter Googles AI-Modellen und wurde bei Resistenz gegen Prompt Injection sowie bei der Abwehr von Cyberangriffen verbessert
Nach dem Frontier Safety Framework wurden interne Tests und Bewertungen durch externe Experten durchgeführt
- Beteiligt waren Organisationen wie UK AISI, Apollo, Vaultis und Dreadnode
Detaillierte Ergebnisse der Sicherheitsbewertung wurden in der Gemini-3-Model-Card veröffentlicht

Beginn der Gemini-3-Ära

Gemini 3 wird über die folgenden Wege ausgerollt
- Gemini-App und AI Mode der Search
- Entwicklerzugang über AI Studio, Google Antigravity und Gemini CLI
- Unternehmensbereitstellung über Vertex AI und Gemini Enterprise
Der Deep-Think-Modus soll nach zusätzlichen Sicherheitsprüfungen für Ultra-Abonnenten bereitgestellt werden
Weitere Modelle der Gemini-3-Serie sollen später vorgestellt werden; geplant ist eine Ausweitung auf Basis von Nutzerfeedback

3 Kommentare

t7vonn 2025-11-19

Gemini, der Herrscher, wow.

GN⁺ 2025-11-19

Hacker-News-Kommentare

Ich habe eine alte XML-basierte Rechner-App in Gemini eingegeben, und in weniger als einer Minute wurde daraus eine vollständige Web-App.
Ich habe über Jahre selbst einen Compiler gebaut, der mein benutzerdefiniertes XML in Android-/Swing-Apps umwandelt, aber Gemini hat das ohne jede Formatbeschreibung geschafft.
Als ich es mit Lovable versucht habe, funktionierte die App nicht richtig und ich habe nur Credits verschwendet, aber diesmal war es ein völlig anderes Niveau.
Link zum Ergebnis
Ich habe Gemini das neueste Project-Euler-Problem (#970) gegeben. Es war sehr wahrscheinlich nicht in den Trainingsdaten, aber nach 5 Minuten und 10 Sekunden Denken lieferte es Python-Code mit der richtigen Antwort.
Die Lösungszeiten der drei besten Menschen lagen bei 14 Minuten, 20 Minuten und 1 Stunde 14 Minuten.
Bei solchen Problemen hätte ich erwartet, dass sie in einem Bereich liegen, auf den das Modell per RL getunt wurde, aber trotzdem ist es erstaunlich, dass etwas, das Tage dauern könnte, in wenigen Minuten gelöst wurde.
- Ich habe auch versucht, dasselbe Problem mit Gemini 3 Pro Preview zu lösen. Es lieferte nach 4 Minuten 31 Sekunden ein Ergebnis, aber es war falsch.
  Obwohl Websuche verboten war, gab es 8 „Quellen“ zurück, darunter stackexchange und youtube.
  Trotzdem waren die meisten Einsichten korrekt und es ist ein ziemlich nützliches Werkzeug.
  Prompt-Link
- Ich habe das low-Problem von Kattis, das ich schon länger teste, erneut ausprobiert, und zum ersten Mal hat es ein LLM bestanden.
  Seit ChatGPT konnte es kein Modell lösen, aber Gemini 3 hat es endlich geschafft.
- Der hohe Elo-Wert des Modells könnte einfach nur an seiner Geschwindigkeit liegen.
  Aber bei solchen Ergebnissen habe ich das Gefühl, dass wir innerhalb von 10 Jahren eine Stockfish-artige KI für Rätsel sehen werden.
- Zur Referenz: Das aktuell neueste Problem ist Project Euler #970.
- Ich habe es mit gpt-5.1 thinking versucht, und es hat einfach die Antwort im Internet gesucht 😅
Ich habe den Prompt für ein analoges Uhren-Widget, mit dem ich früher in Flash 2.5 experimentiert habe, in Gemini 3 Pro Preview eingegeben und auf Anhieb ein perfekt funktionierendes Ergebnis bekommen.
Link zum Ergebnis
- Flash 2.5 war auch ganz ordentlich. Es hat eine metrische UNIX-Uhr gebaut und Sekunden als Kilosekunden (kiloseconds) dargestellt.
  Ein Tag sind 86.4ks, und aktuell befinden wir uns bei ungefähr 1.76 Gigasekunden seit der AUNIX-Epoche. Irgendwann möchte ich eine physische Uhr mit 20 Fuß Größe bauen.
- Dass keine „wiggle“-Animation erscheint, wenn der Sekundenzeiger die 12 erreicht, macht es für mich unbrauchbar 😂
- Dieses Projekt ist ein Beispiel aus dem Kurs Wes Bos’ 30 Days of JavaScript, daher war es wahrscheinlich in den Trainingsdaten enthalten.
- Ich habe noch ein paar Verbesserungen hinzugefügt, aber nur der Tick-Sound hat erst im zweiten Versuch funktioniert.
  Link zur verbesserten Version
- Der Prompt einer anderen Person war viel einfacher. Mein ursprünglicher Prompt erzeugte nur HTML/CSS mit der Variable ${time}, und Gemini hat das komplett vermasselt.
  Link zum Fehlversuch
Ich habe meine Aufzeichnungen zum Pelican-Benchmark und die neue schwierige Version zusammengestellt.
Blogbeitrag
- In jedem Labor wird es jetzt wohl einen „Pelikan-Beauftragten“ geben. Wahrscheinlich trainieren sie Tag und Nacht, um SVG-Pelikane auf Fahrrädern besser zu zeichnen.
- Sie haben monatelang Pelikane trainiert, und in dem Moment, in dem ich den Benchmark geändert habe, hat sich das Ziel verschoben 😂
- „Ein Pelikan auf einem Fahrrad“ war wahrscheinlich schon in den Trainingsdaten enthalten.
- Es hieß, es gebe kein Sättigungsproblem, aber wenn man sich die Ergebnisse ansieht, wirkt es so, als hätten die großen Labore heimlich den Pelikan-Hügel erklommen.
- Schade ist, dass Gemini 3 denselben Knowledge Cutoff von Januar 2025 hat wie 2.5.
  Vielleicht wird dasselbe Basismodell verwendet und nur das RL-Tuning verbessert.
Gemini 3 Pro Preview ist bei meinem einfachen Python-Benchmark komplett gescheitert.
Gemini 2.5 Pro kam etwas näher heran, lag aber immer noch falsch.
Dagegen haben gpt-5.1-thinking, Claude Sonnet 4.5 und Opus 4.1 bestanden.
Das hat mich wieder daran erinnert, dass Benchmarks kein absoluter Maßstab sind.
- Zu sagen, „Benchmarks sind bedeutungslos“, ist übertrieben. Sie haben Grenzen, sind aber weiterhin nützliche Indikatoren.
  Mich würde interessieren, was für ein „einfaches“ Python-Problem das ist, bei dem GPT-5 thinking scheitert.
- Aus einem einzelnen persönlichen Benchmark Schlussfolgerungen zu ziehen, ist schwer vertrauenswürdig. Wenn du ihn teilst, könnten wir ihn gemeinsam überprüfen.
- Ich teste oft „Baue ein Pac-Man-Spiel in einer einzigen HTML-Seite“. Gemini 3 ist dabei ähnlich gescheitert wie 2.5.
- Die Aussagekraft eines Benchmarks hängt von der Qualität seines Designs ab. Man kann sie nicht allein danach beurteilen, ob er öffentlich ist.
- In den von Google veröffentlichten SWEBench-Werten lag Gemini 3 Pro unter Claude Sonnet 4.5. Ich frage mich, ob Opus 4.5 besser abschneiden würde.
Während ich ein medizinisches Problem bearbeitet habe, lag Gemini 2.5 Pro nur ungefähr zur Hälfte richtig, aber Gemini 3.0 hat es perfekt gelöst.
Es hat die relevanten Vorschriften, Studien und Genehmigungsverfahren logisch strukturiert, sodass es tatsächlich bei der Entscheidungsfindung geholfen hat.
Solche Modelle könnten das Leben von Menschen wirklich verändern.
Ich fand es sehr lustig, dass Googles Ankündigungsbeitrag einen Button „Von KI generierte Zusammenfassung lesen“ hatte.
Der nächste Schritt ist dann wohl: „Lassen Sie unsere KI die Zusammenfassung Ihrer KI lesen.“
Am Ende automatisieren wir vielleicht sogar Glauben selbst, ganz wie bei Douglas Adams’ Electric Monk.
- Ich wollte ein KI-Projekt in meiner Firma auch Electric Monk nennen, aber das war zu umstritten, also habe ich es in Electric Mentor geändert.
- Dazu passt dieser SMBC-Comic perfekt.
- Jetzt wäre es schön, wenn KI auch die Behebung von Cloud-Ausfällen automatisieren würde.
- Es scheint nicht mehr lange zu dauern, bis KI nicht nur Entwickler, sondern auch Manager-Rollen ersetzt.
Mein Lieblingsbenchmark ist die Zusammenfassung langer Meeting-Audiodateien samt Sprechertrennung.
Gemini 2.5 war bei der Zusammenfassung okay, aber die Sprechertrennung war chaotisch, während 3.0 alles perfekt getroffen hat.
- Ich habe mit einem 90-minütigen Podcast experimentiert, und Gemini 3 hat halluzinierte Zitate erzeugt und alle Zeitstempel falsch angegeben.
  Bei langen Audiodateien gibt es also weiterhin Grenzen.
- Mit spezialisierten Audiomodellen wie ElevenLabs oder Soniox ist die Genauigkeit viel höher.
- Mich würde interessieren, welchen Prompt du verwendest.
- Ich baue auch ein Projekt zur Sprechertrennung bei Podcasts, und es funktioniert ziemlich gut.
- Parakeet TDT v3 scheint für solche Aufgaben sehr gut geeignet zu sein.
Bei meinem selbst gebauten Testbild eines Hundes mit fünf Beinen ist auch Gemini 3 gescheitert.
Immerhin hat es im Gegensatz zu anderen Modellen das fünfte Bein erkannt, es aber für ein anderes Körperteil gehalten.
Visuelle Wahrnehmung bleibt also weiterhin eine große Herausforderung.
- Perception ist ein Bereich, den die Evolution über Milliarden Jahre verfeinert hat, daher ist er rechnerisch viel schwieriger.
- Vielleicht entsteht diese Fehleinschätzung auch durch einen blinden Fleck in den Sicherheitsfiltern.

nullptr 2025-11-19

Derzeit kann es kostenlos in Antigravity ( https://antigravity.google/pricing ) genutzt werden, Googles veröffentlichtem VSCode-OSS-Fork.
Außerdem scheint in gemini-cli aktuell nur AI Ultra (360.000 Won pro Monat) verfügbar zu sein.