7 Punkte von GN⁺ 2026-02-13 | 1 Kommentare | Auf WhatsApp teilen
  • Googles KI-Modell Gemini 3 Deep Think, das auf die Lösung von Problemen in Wissenschaft, Forschung und Ingenieurwesen abzielt, wurde umfassend aufgewertet
  • Die neue Version wurde in Zusammenarbeit mit Wissenschaftlern und Forschern entwickelt, um komplexe Probleme mit unvollständigen Daten oder ohne eindeutig richtige Antwort zu bewältigen
  • In internationalen Olympiaden und Benchmarks aus Bereichen wie Mathematik, Programmierung, Physik und Chemie erreichte es Leistungen auf Goldmedaillen-Niveau
  • Es unterstützt reale Forschungs- und Engineering-Anwendungen und bietet praktische Funktionen wie die Erzeugung 3D-druckbarer Modelle aus Skizzen
  • Verfügbar für Google AI Ultra-Abonnenten sowie über das Frühzugangsprogramm der Gemini API, mit geplanter Ausweitung auf Forscher und Unternehmen

Wichtige Übersicht zu Gemini 3 Deep Think

  • Gemini 3 Deep Think ist ein spezialisierter Inferenzmodus, der für die Bewältigung moderner Herausforderungen in Wissenschaft, Forschung und Ingenieurwesen entwickelt wurde
    • Google arbeitete eng mit Wissenschaftlern und Forschern zusammen, um die Fähigkeit zu stärken, Probleme ohne klare richtige Antwort oder mit unvollständigen Daten zu behandeln
    • Durch die Verbindung von theoretischem Wissen und praktischer Anwendbarkeit im Engineering wurde das Modell zu einem stärker auf reale Anwendungen ausgerichteten System weiterentwickelt
  • Das Upgrade wird über die Gemini-App für Google AI Ultra-Abonnenten bereitgestellt; über die Gemini API können Forscher, Ingenieure und Unternehmen Frühzugang beantragen

Frühe Anwendungsfälle

  • Die Rutgers-University-Mathematikerin Lisa Carbone nutzte Deep Think zur Prüfung mathematischer Facharbeiten aus der Hochenergiephysik und entdeckte logische Fehler, die menschliche Begutachtungen passiert hatten
  • Das Wang Lab der Duke University optimierte komplexe Kristallwachstumsprozesse für die Suche nach Halbleitermaterialien und entwarf Rezepte für das Wachstum von Dünnfilmen über 100 μm
  • Anupam Pathak aus Googles Bereich Platforms & Devices testete Deep Think, um die Entwicklung physischer Bauteile zu beschleunigen

Höhere mathematische und algorithmische Präzision

  • Deep Think erzielte Leistungen auf Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade und dem Internationalen Collegiate Programming Contest
  • Die aktuelle Version erreichte dabei neue Bestwerte in akademischen Benchmarks
    • Humanity’s Last Exam: 48,4 % (ohne Tool-Nutzung)
    • ARC-AGI-2: 84,6 % (verifiziert durch die ARC Prize Foundation)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: Leistung auf Goldmedaillen-Niveau
  • Deep Think wird auch für die Entwicklung spezialisierter Agenten zur mathematischen Forschung genutzt

Erkundung komplexer wissenschaftlicher Bereiche

  • Über Mathematik und Programmierung hinaus wurden auch in Chemie, Physik und anderen Wissenschaften Leistungssteigerungen erzielt
    • In den schriftlichen Wettbewerben der Internationalen Physik- und Chemie-Olympiaden 2025 wurden Ergebnisse auf Goldmedaillen-Niveau erreicht
    • Im theoretischen Physik-Benchmark CMT-Benchmark wurde ein Wert von 50,5 % erzielt
  • Diese Ergebnisse belegen die erweiterten wissenschaftlichen Inferenzfähigkeiten von Deep Think

Beschleunigung realer Engineering-Anwendungen

  • Deep Think unterstützt die Interpretation komplexer Daten und die Modellierung physischer Systeme und zielt auf den praktischen Einsatz durch Forscher und Ingenieure ab
  • Über die Gemini API wird der Zugang für reale Forschungsumgebungen weiter ausgebaut
  • So können Nutzer beispielsweise eine Skizze eingeben, um ein 3D-druckbares Modell zu erzeugen; Deep Think übernimmt dabei Analyse, Modellierung und Dateierstellung

Zugang und Nutzung

  • Google AI Ultra-Abonnenten können Deep Think sofort in der Gemini-App verwenden
  • Forscher, Ingenieure und Unternehmen können sich für das Frühzugangsprogramm über die Gemini API bewerben
  • Google hofft, dass Deep Think neue wissenschaftliche Entdeckungen und Anwendungsfälle vorantreibt

1 Kommentare

 
GN⁺ 2026-02-13
Hacker-News-Kommentare
  • Ein ARC-AGI-2-Wert von 84,6 % ist schon erstaunlich
    Im offiziellen Blogbeitrag stehen die Details zu Gemini 3 Deep Think.

    • Schon länger habe ich den Eindruck, dass Gemini 3 unglaublich allgemein einsetzbar (general) ist.
      Es konnte Balatro (Ante 8) allein anhand einer Textbeschreibung schlagen. Für Menschen ist das nicht besonders schwer, aber dass ein LLM das ohne spezielles Training schafft, ist bemerkenswert.
      Getestet wurde das auf Balatro Bench; Deepseek kann dieses Spiel überhaupt nicht spielen.
    • Noch vor gerade einmal einem Jahr lag man bei diesem Benchmark bei etwa 1–10 %, und jetzt ist das Niveau fast schon so hoch, dass man von AGI-Niveau sprechen könnte — kaum zu glauben.
    • Der Anstieg beim ARC-AGI-Score ist interessant, aber das als einen Sprung bei der „allgemeinen Intelligenz“ zu sehen, geht zu weit.
      Ich scherze, dass das G in ARC-AGI für „graphical“ steht. Modelle waren bisher schwach bei räumlichem Denken (spatial reasoning), und genau das scheint diesmal gelöst worden zu sein.
      Für ARC-AGI 3 hoffe ich auf spielartige Aufgaben auf Basis von Versuch und Irrtum.
    • Laut dem ARC-Prize-Leaderboard kosten die Aufgaben derzeit etwa 13,62 $ pro Aufgabe.
      Realistisch gesehen dürfte es noch 5–10 Jahre dauern, bis die Ausführungskosten auf ein vernünftiges Niveau sinken.
      Ich frage mich allerdings, ob das Modell nicht überangepasst (fitting) auf den Benchmark ist.
    • Für einen fairen Vergleich müsste man es mit einem Modell derselben Klasse wie GPT-5.x Pro vergleichen.
  • Es fühlt sich an, als würde das Tempo der Modellveröffentlichungen unnatürlich schnell zunehmen.
    Allein heute kamen Gemini 3 Deep Think und GPT 5.3 Codex Spark heraus, und vor ein paar Tagen gab es schon Opus 4.6, GLM5 und MiniMax M2.5.

    • Wahrscheinlich spielt die Zeit rund um das chinesische Neujahr eine Rolle.
      Chinesische Labore veröffentlichen in dieser Phase ihre Modelle, und US-Labore scheinen stärkere Modelle schneller herauszubringen, um einen Effekt wie bei DeepSeek R1 (20. Januar 2025) zu vermeiden.
    • Inzwischen gibt es so viele Modellvarianten, dass sie kaum noch auseinanderzuhalten sind.
      Gemini 3 Deep Think wirkt weniger wie ein vollständig neues Modell als vielmehr wie eine Version von Gemini 3 Pro mit zusätzlicher Inferenzfunktion (subagent) obendrauf.
      Es lässt sich auch an externe Agent-Frameworks wie OpenClaw anbinden, daher scheint mir die Debatte über „Agent-Workflows“ übertrieben.
    • Die letzten Wochen waren wirklich ein explosiver Release-Zyklus.
    • Mit einem Wort: Fast takeoff.
  • Google liegt gerade klar vorn.
    Viele dachten, das Unternehmen sei zurückgefallen, aber genau das war vielleicht die beste Strategie.

    • Die Modelle sind beeindruckend, aber die Produktqualität ist miserabel.
      Ich habe Gemini Web/CLI zwei Monate lang genutzt; mitten im Gespräch verliert es den Kontext, und wenn man nach der Verbesserung der Luftqualität fragt, bekommt man ohne Zusammenhang nur eine Liste von Luftreinigern.
      Teilweise zitiert es sogar russische Propagandaseiten oder wechselt mitten im Satz ins Chinesische.
      Für diese Qualität sind 20 Euro im Monat nicht nachvollziehbar.
    • Im Normalbetrieb ist Google langsam und bürokratisch, aber Google im Kriegsmodus arbeitet mit erstaunlicher Geschwindigkeit.
    • OpenAI wird ein paar Stunden später ohnehin wieder etwas veröffentlichen, daher macht der Wettbewerb Spaß.
      Selbst Leute, die ARC-AGI-2 als Grenze von LLMs bezeichnet haben, werden jetzt den Maßstab wieder verschieben.
      Der Großteil menschlicher Anstrengung wird wohl darauf verwendet werden zu beweisen, dass „AI noch keine AGI ist“.
    • Trotzdem liegt Google bei der tatsächlichen praktischen Nutzbarkeit noch zurück.
      Gemini 3 Pro hat weiterhin viele Probleme.
  • Ich nutze Gemini 3 Pro derzeit für ein Digitalisierungsprojekt historischer Dokumente.
    Dabei scanne ich handschriftliche Sitzungsprotokolle auf Deutsch aus den Jahren 1885–1974 und transkribiere und übersetze sie seitenweise.
    Etwa 2.370 Seiten sind bereits verarbeitet, mit einer Genauigkeit von 95 % und API-Kosten von ungefähr 50 $.
    Eine manuelle Prüfung ist weiterhin nötig, aber die Zeitersparnis ist enorm.

    • Vielleicht reicht schon ein einziger Durchlauf; nach der Prüfung sollte man die Gesamteffizienz noch einmal neu bewerten.
  • Mein Gefühl sagt mir, dass es bei Modellen drei Spektren gibt:
    nicht-denkende, denkende und Best-of-N-Modelle (Deep Think, GPT Pro).
    Die Rechenkomplexität steigt dabei ungefähr linear, quadratisch und kubisch an.
    Denkende Modelle können Probleme lösen, die das Schreiben eines Scratchpads erfordern.

    • Der nächste Schritt dürften Agentenschwärme (agent swarm) sein.
      Ein Manager-Modell erhält den Prompt, erzeugt mehrere Unteragenten, lässt sie parallel verschiedene Ansätze ausprobieren und bewertet und verteilt die Ergebnisse neu.
    • Bei Best-of-N-Modellen ist die Nutzung langer Kontexte entscheidend.
      Google kann seit Version 2.5 mit langen Kontexten praktisch wirklich gut umgehen.
      Das pass@N-Konzept ist ebenfalls spannend, vor allem für suchbasierte Aufgaben, bei denen Zeit in Geld umgewandelt wird, etwa bei der Suche nach Sicherheitslücken oder bei Optimierungsproblemen.
    • Auf die Frage, ob ein großes nicht-denkendes Modell dieselbe Leistung wie ein kleines denkendes Modell erreichen kann, sind die Anthropic-Modelle ein gutes Beispiel.
      In diesem Bild zeigt Opus 4.6 auch ohne Denken eine hohe Leistung.
  • Die PDF mit der Bewertungsmethodik für alle Benchmarks gibt es hier.
    Der ARC-AGI-2-Wert von 84,6 % bezieht sich auf das semi-private Set,
    und wenn im private Set mehr als 85 % erreicht werden, gilt das als „solved“ und es gibt ein Preisgeld von 700.000 $.
    Siehe ARC-Prize-Guide.

    • Wenn man sieht, dass der Dokumenttitel „Gemini 3.1 Pro“ lautet, scheint bald eine neue Version zu kommen.
    • Allerdings dürfte es schwierig sein, im private Set über 85 % zu kommen, weil das auf Datenleckage hindeuten könnte.
  • Modelle entwickeln sich derzeit so schnell, dass ich denke, mein Job könnte in 3–5 Jahren verschwunden sein.
    Es wirkt inzwischen so, als seien LLMs in eine Phase eingetreten, in der sie sich selbst verbessern.

  • Schade, dass es das nicht bei OpenRouter gibt.
    Viele der derzeit führenden Deep-Think-Modelle werden nur auf den eigenen Plattformen nutzbar gemacht.

    • OpenRouter ist gut, aber litellm ist als einfache Python-Bibliothek noch sauberer.
      Siehe die litellm-Dokumentation.
    • Allerdings fühlt es sich an, als sei das goldene Zeitalter inzwischen vorbei.
  • Für mich wirkte Gemini immer wie ein Modell mit viel Wissen, aber wenig Flexibilität.
    Bei Anfragen außerhalb des Skripts bricht es schnell ein.

    • Tatsächlich könnte so eine Erfahrung auch eine Frage der Anpassung des Nutzers sein.
      Ich habe Google-Modelle lange genutzt und hatte deshalb den Eindruck, dass OpenAI-Modelle deutlich schlechter sind.
      Umgekehrt werden OpenAI-Nutzer aus demselben Grund wohl auch denken, ihr Modell sei das beste.
    • In gewisser Weise wirkt Gemini wie ein Modell, das auf seine eigene Art denkt.
      Ich konnte es noch nicht testen, aber vielleicht hat sich die Befolgung von Anweisungen verbessert.
  • Es ist erstaunlich, wie schnell sich Modelle weiterentwickeln.
    Ich dachte, wir würden bald an eine Wand stoßen, aber neue Modelle sprengen die bisherigen Benchmarks komplett.

    • Gleichzeitig nimmt die Korrelation mit der realen Leistung immer weiter ab, weil Unternehmen sich auf die Optimierung von Benchmark-Scores konzentrieren.