- Google hat Gemini 3, sein intelligentestes AI-Modell, vorgestellt und bietet damit verbesserte Schlussfolgerungsfähigkeit und multimodales Verständnis
- Gemini 3 Pro erzielt gegenüber der vorherigen Generation in allen wichtigen Benchmarks Bestwerte und verarbeitet verschiedenste Eingaben wie Text, Bilder, Videos und Code
- Der Deep-Think-Modus ergänzt erweiterte Schlussfolgerungsfunktionen zur Lösung komplexer Probleme und wird schrittweise für Ultra-Abonnenten bereitgestellt
- Gemini 3 unterstützt Lernen, Entwicklung und Planung umfassend und ist in Google Search, der Gemini-App, AI Studio, Vertex AI und weiteren Diensten verfügbar
- Mit Gemini 3 beschleunigt Google den Übergang in das Zeitalter intelligenter Agenten und personalisierter AI
Überblick über Gemini 3
- Gemini 3 ist das von Google entwickelte intelligenteste AI-Modell und soll Nutzern helfen, jede Art von Idee umzusetzen
- Es kombiniert multimodales Verständnis mit agentischem Coding (Agentic Coding) und verarbeitet integriert verschiedene Eingaben wie Text, Bilder, Videos, Audio und Code
- Gemini 3 Pro ist im gesamten Google-Ökosystem verfügbar, darunter AI Studio, Vertex AI, die Gemini-App und die Google-Antigravity-Plattform
- Der Deep-Think-Modus unterstützt mit verbesserter Schlussfolgerungsfähigkeit das Lösen komplexer Probleme und soll für Abonnenten von Google AI Ultra verfügbar werden
Botschaft des CEO
- Sundar Pichai verwies darauf, dass das Gemini-Projekt nach zwei Jahren Ergebnisse wie 2 Milliarden monatliche Nutzer von AI Overviews, 650 Millionen Nutzer der Gemini-App und mehr als 130.000 teilnehmende Entwickler erreicht habe
- Googles Full-Stack-Struktur für AI-Innovationen (Infrastruktur–Forschung–Modelle–Produkte) ermögliche eine schnelle Verbreitung der Technologie
- Gemini 3 vereint die multimodalen, schlussfolgernden und agentischen Fähigkeiten der vorherigen Generation in einem Modell und erfasst Absicht und Kontext der Nutzer präziser
- Gemini 3 startet gleichzeitig in dem AI Mode der Search, der Gemini-App, AI Studio, Vertex AI und Google Antigravity
Leistung von Gemini 3 Pro
- Gemini 3 Pro erzielte in allen wichtigen AI-Benchmarks bessere Werte als 2.5 Pro
- Auf dem LMArena-Leaderboard erreichte es 1501 Elo, bei Humanity’s Last Exam 37.5%, bei GPQA Diamond 91.9% und bei MathArena Apex 23.4%
- In den multimodalen Benchmarks MMMU-Pro 81%, Video-MMMU 87.6% und SimpleQA Verified 72.1%
- Es liefert präzise und knappe Antworten und kann etwa zur Visualisierung wissenschaftlicher Konzepte oder zur Konkretisierung kreativer Ideen genutzt werden
- Als Beispiele werden die Generierung von Code zur Visualisierung von Plasmaströmungen in einem Tokamak sowie das Verfassen eines Gedichts zum Thema Kernfusionsphysik genannt
Gemini 3 Deep Think
- Der Deep-Think-Modus verstärkt die Schlussfolgerungs- und multimodalen Verständnisfähigkeiten von Gemini 3 noch weiter
- Mit 41.0% bei Humanity’s Last Exam, 93.8% bei GPQA Diamond und 45.1% bei ARC-AGI-2 erreicht er Spitzenwerte
- Damit wird fortgeschrittene Schlussfolgerungsfähigkeit bei der Lösung komplexer Probleme und neuer Herausforderungen belegt
Lernen (Learn anything)
- Gemini 3 unterstützt das Lernen mithilfe eines Kontextfensters von 1 Million Tokens und multimodaler Schlussfolgerung
- Übersetzung handschriftlicher Rezepte und Erstellung eines digitalen Kochbuchs
- Zusammenfassung langer Vorlesungen und Fachaufsätze sowie Generierung interaktiver Lernkarten oder Visualisierungscode
- Erstellung personalisierter Trainingspläne durch Analyse von Sportvideos
- Der AI Mode in Google Search erzeugt auf Basis von Gemini 3 in Echtzeit immersive visuelle Layouts und interaktive Tools
Entwicklung (Build anything)
- Gemini 3 ist stark in Zero-Shot-Generierung und bei der Verarbeitung komplexer Prompts und erreicht 1487 Elo in der WebDev Arena
- Bei Terminal-Bench 2.0 54.2% und bei SWE-bench Verified 76.2%, was die Tool-Nutzung und die Leistung von Coding-Agenten verbessert
- Entwickeln ist in Google AI Studio, Vertex AI, Gemini CLI und Google Antigravity möglich
- Unterstützung gibt es auch auf Drittplattformen wie Cursor, GitHub, JetBrains, Manus und Replit
Google Antigravity: agentenzentrierte Entwicklungsumgebung
- Google Antigravity ist eine auf Gemini 3 basierende agentische Entwicklungsplattform, in der Entwickler mit AI auf arbeitsspezifischer Ebene zusammenarbeiten können
- Die Agenten greifen direkt auf Editor, Terminal und Browser zu und führen das Schreiben, Ausführen und Prüfen von Code automatisch durch
- Integriert sind Gemini 3 Pro sowie das Gemini 2.5 Computer Use-Modell und das Nano Banana-Bildbearbeitungsmodell
- Als Beispiel wird ein Workflow gezeigt, in dem ein Agent eine Flug-Tracking-App selbst entwirft, programmiert und validiert
Planung (Plan anything)
- Gemini 3 stärkt die Fähigkeit zur langfristigen Planung und erreicht Platz 1 im Vending-Bench-2-Leaderboard
- In einem simulierten Automaten-Business hielt es über ein Jahr hinweg stabile Entscheidungen aufrecht
- Auch die Automatisierung komplexer mehrstufiger Aufgaben ist möglich, etwa das Organisieren von E-Mails oder das Buchen von Services
- Mit der Funktion Gemini Agent können Ultra-Abonnenten dies direkt in der Gemini-App ausprobieren
Verantwortungsvolle Entwicklung
- Gemini 3 ist das sicherste Modell unter Googles AI-Modellen und wurde bei Resistenz gegen Prompt Injection sowie bei der Abwehr von Cyberangriffen verbessert
- Nach dem Frontier Safety Framework wurden interne Tests und Bewertungen durch externe Experten durchgeführt
- Beteiligt waren Organisationen wie UK AISI, Apollo, Vaultis und Dreadnode
- Detaillierte Ergebnisse der Sicherheitsbewertung wurden in der Gemini-3-Model-Card veröffentlicht
Beginn der Gemini-3-Ära
- Gemini 3 wird über die folgenden Wege ausgerollt
- Gemini-App und AI Mode der Search
- Entwicklerzugang über AI Studio, Google Antigravity und Gemini CLI
- Unternehmensbereitstellung über Vertex AI und Gemini Enterprise
- Der Deep-Think-Modus soll nach zusätzlichen Sicherheitsprüfungen für Ultra-Abonnenten bereitgestellt werden
- Weitere Modelle der Gemini-3-Serie sollen später vorgestellt werden; geplant ist eine Ausweitung auf Basis von Nutzerfeedback
3 Kommentare
Gemini, der Herrscher, wow.
Hacker-News-Kommentare
Ich habe eine alte XML-basierte Rechner-App in Gemini eingegeben, und in weniger als einer Minute wurde daraus eine vollständige Web-App.
Ich habe über Jahre selbst einen Compiler gebaut, der mein benutzerdefiniertes XML in Android-/Swing-Apps umwandelt, aber Gemini hat das ohne jede Formatbeschreibung geschafft.
Als ich es mit Lovable versucht habe, funktionierte die App nicht richtig und ich habe nur Credits verschwendet, aber diesmal war es ein völlig anderes Niveau.
Link zum Ergebnis
Ich habe Gemini das neueste Project-Euler-Problem (#970) gegeben. Es war sehr wahrscheinlich nicht in den Trainingsdaten, aber nach 5 Minuten und 10 Sekunden Denken lieferte es Python-Code mit der richtigen Antwort.
Die Lösungszeiten der drei besten Menschen lagen bei 14 Minuten, 20 Minuten und 1 Stunde 14 Minuten.
Bei solchen Problemen hätte ich erwartet, dass sie in einem Bereich liegen, auf den das Modell per RL getunt wurde, aber trotzdem ist es erstaunlich, dass etwas, das Tage dauern könnte, in wenigen Minuten gelöst wurde.
Obwohl Websuche verboten war, gab es 8 „Quellen“ zurück, darunter stackexchange und youtube.
Trotzdem waren die meisten Einsichten korrekt und es ist ein ziemlich nützliches Werkzeug.
Prompt-Link
Seit ChatGPT konnte es kein Modell lösen, aber Gemini 3 hat es endlich geschafft.
Aber bei solchen Ergebnissen habe ich das Gefühl, dass wir innerhalb von 10 Jahren eine Stockfish-artige KI für Rätsel sehen werden.
Ich habe den Prompt für ein analoges Uhren-Widget, mit dem ich früher in Flash 2.5 experimentiert habe, in Gemini 3 Pro Preview eingegeben und auf Anhieb ein perfekt funktionierendes Ergebnis bekommen.
Link zum Ergebnis
Ein Tag sind 86.4ks, und aktuell befinden wir uns bei ungefähr 1.76 Gigasekunden seit der AUNIX-Epoche. Irgendwann möchte ich eine physische Uhr mit 20 Fuß Größe bauen.
Link zur verbesserten Version
${time}, und Gemini hat das komplett vermasselt.Link zum Fehlversuch
Ich habe meine Aufzeichnungen zum Pelican-Benchmark und die neue schwierige Version zusammengestellt.
Blogbeitrag
Vielleicht wird dasselbe Basismodell verwendet und nur das RL-Tuning verbessert.
Gemini 3 Pro Preview ist bei meinem einfachen Python-Benchmark komplett gescheitert.
Gemini 2.5 Pro kam etwas näher heran, lag aber immer noch falsch.
Dagegen haben gpt-5.1-thinking, Claude Sonnet 4.5 und Opus 4.1 bestanden.
Das hat mich wieder daran erinnert, dass Benchmarks kein absoluter Maßstab sind.
Mich würde interessieren, was für ein „einfaches“ Python-Problem das ist, bei dem GPT-5 thinking scheitert.
Während ich ein medizinisches Problem bearbeitet habe, lag Gemini 2.5 Pro nur ungefähr zur Hälfte richtig, aber Gemini 3.0 hat es perfekt gelöst.
Es hat die relevanten Vorschriften, Studien und Genehmigungsverfahren logisch strukturiert, sodass es tatsächlich bei der Entscheidungsfindung geholfen hat.
Solche Modelle könnten das Leben von Menschen wirklich verändern.
Ich fand es sehr lustig, dass Googles Ankündigungsbeitrag einen Button „Von KI generierte Zusammenfassung lesen“ hatte.
Der nächste Schritt ist dann wohl: „Lassen Sie unsere KI die Zusammenfassung Ihrer KI lesen.“
Am Ende automatisieren wir vielleicht sogar Glauben selbst, ganz wie bei Douglas Adams’ Electric Monk.
Mein Lieblingsbenchmark ist die Zusammenfassung langer Meeting-Audiodateien samt Sprechertrennung.
Gemini 2.5 war bei der Zusammenfassung okay, aber die Sprechertrennung war chaotisch, während 3.0 alles perfekt getroffen hat.
Bei langen Audiodateien gibt es also weiterhin Grenzen.
Bei meinem selbst gebauten Testbild eines Hundes mit fünf Beinen ist auch Gemini 3 gescheitert.
Immerhin hat es im Gegensatz zu anderen Modellen das fünfte Bein erkannt, es aber für ein anderes Körperteil gehalten.
Visuelle Wahrnehmung bleibt also weiterhin eine große Herausforderung.
Derzeit kann es kostenlos in Antigravity ( https://antigravity.google/pricing ) genutzt werden, Googles veröffentlichtem VSCode-OSS-Fork.
Außerdem scheint in
gemini-cliaktuell nur AI Ultra (360.000 Won pro Monat) verfügbar zu sein.