Gemini 3 Deep Think vorgestellt
(blog.google)- Googles KI-Modell Gemini 3 Deep Think, das auf die Lösung von Problemen in Wissenschaft, Forschung und Ingenieurwesen abzielt, wurde umfassend aufgewertet
- Die neue Version wurde in Zusammenarbeit mit Wissenschaftlern und Forschern entwickelt, um komplexe Probleme mit unvollständigen Daten oder ohne eindeutig richtige Antwort zu bewältigen
- In internationalen Olympiaden und Benchmarks aus Bereichen wie Mathematik, Programmierung, Physik und Chemie erreichte es Leistungen auf Goldmedaillen-Niveau
- Es unterstützt reale Forschungs- und Engineering-Anwendungen und bietet praktische Funktionen wie die Erzeugung 3D-druckbarer Modelle aus Skizzen
- Verfügbar für Google AI Ultra-Abonnenten sowie über das Frühzugangsprogramm der Gemini API, mit geplanter Ausweitung auf Forscher und Unternehmen
Wichtige Übersicht zu Gemini 3 Deep Think
- Gemini 3 Deep Think ist ein spezialisierter Inferenzmodus, der für die Bewältigung moderner Herausforderungen in Wissenschaft, Forschung und Ingenieurwesen entwickelt wurde
- Google arbeitete eng mit Wissenschaftlern und Forschern zusammen, um die Fähigkeit zu stärken, Probleme ohne klare richtige Antwort oder mit unvollständigen Daten zu behandeln
- Durch die Verbindung von theoretischem Wissen und praktischer Anwendbarkeit im Engineering wurde das Modell zu einem stärker auf reale Anwendungen ausgerichteten System weiterentwickelt
- Das Upgrade wird über die Gemini-App für Google AI Ultra-Abonnenten bereitgestellt; über die Gemini API können Forscher, Ingenieure und Unternehmen Frühzugang beantragen
Frühe Anwendungsfälle
- Die Rutgers-University-Mathematikerin Lisa Carbone nutzte Deep Think zur Prüfung mathematischer Facharbeiten aus der Hochenergiephysik und entdeckte logische Fehler, die menschliche Begutachtungen passiert hatten
- Das Wang Lab der Duke University optimierte komplexe Kristallwachstumsprozesse für die Suche nach Halbleitermaterialien und entwarf Rezepte für das Wachstum von Dünnfilmen über 100 μm
- Anupam Pathak aus Googles Bereich Platforms & Devices testete Deep Think, um die Entwicklung physischer Bauteile zu beschleunigen
Höhere mathematische und algorithmische Präzision
- Deep Think erzielte Leistungen auf Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade und dem Internationalen Collegiate Programming Contest
- Die aktuelle Version erreichte dabei neue Bestwerte in akademischen Benchmarks
- Humanity’s Last Exam: 48,4 % (ohne Tool-Nutzung)
- ARC-AGI-2: 84,6 % (verifiziert durch die ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: Leistung auf Goldmedaillen-Niveau
- Deep Think wird auch für die Entwicklung spezialisierter Agenten zur mathematischen Forschung genutzt
Erkundung komplexer wissenschaftlicher Bereiche
- Über Mathematik und Programmierung hinaus wurden auch in Chemie, Physik und anderen Wissenschaften Leistungssteigerungen erzielt
- In den schriftlichen Wettbewerben der Internationalen Physik- und Chemie-Olympiaden 2025 wurden Ergebnisse auf Goldmedaillen-Niveau erreicht
- Im theoretischen Physik-Benchmark CMT-Benchmark wurde ein Wert von 50,5 % erzielt
- Diese Ergebnisse belegen die erweiterten wissenschaftlichen Inferenzfähigkeiten von Deep Think
Beschleunigung realer Engineering-Anwendungen
- Deep Think unterstützt die Interpretation komplexer Daten und die Modellierung physischer Systeme und zielt auf den praktischen Einsatz durch Forscher und Ingenieure ab
- Über die Gemini API wird der Zugang für reale Forschungsumgebungen weiter ausgebaut
- So können Nutzer beispielsweise eine Skizze eingeben, um ein 3D-druckbares Modell zu erzeugen; Deep Think übernimmt dabei Analyse, Modellierung und Dateierstellung
Zugang und Nutzung
- Google AI Ultra-Abonnenten können Deep Think sofort in der Gemini-App verwenden
- Forscher, Ingenieure und Unternehmen können sich für das Frühzugangsprogramm über die Gemini API bewerben
- Google hofft, dass Deep Think neue wissenschaftliche Entdeckungen und Anwendungsfälle vorantreibt
1 Kommentare
Hacker-News-Kommentare
Ein ARC-AGI-2-Wert von 84,6 % ist schon erstaunlich
Im offiziellen Blogbeitrag stehen die Details zu Gemini 3 Deep Think.
Es konnte Balatro (Ante 8) allein anhand einer Textbeschreibung schlagen. Für Menschen ist das nicht besonders schwer, aber dass ein LLM das ohne spezielles Training schafft, ist bemerkenswert.
Getestet wurde das auf Balatro Bench; Deepseek kann dieses Spiel überhaupt nicht spielen.
Ich scherze, dass das G in ARC-AGI für „graphical“ steht. Modelle waren bisher schwach bei räumlichem Denken (spatial reasoning), und genau das scheint diesmal gelöst worden zu sein.
Für ARC-AGI 3 hoffe ich auf spielartige Aufgaben auf Basis von Versuch und Irrtum.
Realistisch gesehen dürfte es noch 5–10 Jahre dauern, bis die Ausführungskosten auf ein vernünftiges Niveau sinken.
Ich frage mich allerdings, ob das Modell nicht überangepasst (fitting) auf den Benchmark ist.
Es fühlt sich an, als würde das Tempo der Modellveröffentlichungen unnatürlich schnell zunehmen.
Allein heute kamen Gemini 3 Deep Think und GPT 5.3 Codex Spark heraus, und vor ein paar Tagen gab es schon Opus 4.6, GLM5 und MiniMax M2.5.
Chinesische Labore veröffentlichen in dieser Phase ihre Modelle, und US-Labore scheinen stärkere Modelle schneller herauszubringen, um einen Effekt wie bei DeepSeek R1 (20. Januar 2025) zu vermeiden.
Gemini 3 Deep Think wirkt weniger wie ein vollständig neues Modell als vielmehr wie eine Version von Gemini 3 Pro mit zusätzlicher Inferenzfunktion (subagent) obendrauf.
Es lässt sich auch an externe Agent-Frameworks wie OpenClaw anbinden, daher scheint mir die Debatte über „Agent-Workflows“ übertrieben.
Google liegt gerade klar vorn.
Viele dachten, das Unternehmen sei zurückgefallen, aber genau das war vielleicht die beste Strategie.
Ich habe Gemini Web/CLI zwei Monate lang genutzt; mitten im Gespräch verliert es den Kontext, und wenn man nach der Verbesserung der Luftqualität fragt, bekommt man ohne Zusammenhang nur eine Liste von Luftreinigern.
Teilweise zitiert es sogar russische Propagandaseiten oder wechselt mitten im Satz ins Chinesische.
Für diese Qualität sind 20 Euro im Monat nicht nachvollziehbar.
Selbst Leute, die ARC-AGI-2 als Grenze von LLMs bezeichnet haben, werden jetzt den Maßstab wieder verschieben.
Der Großteil menschlicher Anstrengung wird wohl darauf verwendet werden zu beweisen, dass „AI noch keine AGI ist“.
Gemini 3 Pro hat weiterhin viele Probleme.
Ich nutze Gemini 3 Pro derzeit für ein Digitalisierungsprojekt historischer Dokumente.
Dabei scanne ich handschriftliche Sitzungsprotokolle auf Deutsch aus den Jahren 1885–1974 und transkribiere und übersetze sie seitenweise.
Etwa 2.370 Seiten sind bereits verarbeitet, mit einer Genauigkeit von 95 % und API-Kosten von ungefähr 50 $.
Eine manuelle Prüfung ist weiterhin nötig, aber die Zeitersparnis ist enorm.
Mein Gefühl sagt mir, dass es bei Modellen drei Spektren gibt:
nicht-denkende, denkende und Best-of-N-Modelle (Deep Think, GPT Pro).
Die Rechenkomplexität steigt dabei ungefähr linear, quadratisch und kubisch an.
Denkende Modelle können Probleme lösen, die das Schreiben eines Scratchpads erfordern.
Ein Manager-Modell erhält den Prompt, erzeugt mehrere Unteragenten, lässt sie parallel verschiedene Ansätze ausprobieren und bewertet und verteilt die Ergebnisse neu.
Google kann seit Version 2.5 mit langen Kontexten praktisch wirklich gut umgehen.
Das pass@N-Konzept ist ebenfalls spannend, vor allem für suchbasierte Aufgaben, bei denen Zeit in Geld umgewandelt wird, etwa bei der Suche nach Sicherheitslücken oder bei Optimierungsproblemen.
In diesem Bild zeigt Opus 4.6 auch ohne Denken eine hohe Leistung.
Die PDF mit der Bewertungsmethodik für alle Benchmarks gibt es hier.
Der ARC-AGI-2-Wert von 84,6 % bezieht sich auf das semi-private Set,
und wenn im private Set mehr als 85 % erreicht werden, gilt das als „solved“ und es gibt ein Preisgeld von 700.000 $.
Siehe ARC-Prize-Guide.
Modelle entwickeln sich derzeit so schnell, dass ich denke, mein Job könnte in 3–5 Jahren verschwunden sein.
Es wirkt inzwischen so, als seien LLMs in eine Phase eingetreten, in der sie sich selbst verbessern.
Schade, dass es das nicht bei OpenRouter gibt.
Viele der derzeit führenden Deep-Think-Modelle werden nur auf den eigenen Plattformen nutzbar gemacht.
Siehe die litellm-Dokumentation.
Für mich wirkte Gemini immer wie ein Modell mit viel Wissen, aber wenig Flexibilität.
Bei Anfragen außerhalb des Skripts bricht es schnell ein.
Ich habe Google-Modelle lange genutzt und hatte deshalb den Eindruck, dass OpenAI-Modelle deutlich schlechter sind.
Umgekehrt werden OpenAI-Nutzer aus demselben Grund wohl auch denken, ihr Modell sei das beste.
Ich konnte es noch nicht testen, aber vielleicht hat sich die Befolgung von Anweisungen verbessert.
Es ist erstaunlich, wie schnell sich Modelle weiterentwickeln.
Ich dachte, wir würden bald an eine Wand stoßen, aber neue Modelle sprengen die bisherigen Benchmarks komplett.