2 Punkte von GN⁺ 2025-08-02 | 1 Kommentare | Auf WhatsApp teilen
  • Gemini 2.5 Deep Think ist als Funktion für nur Google AI Ultra-Abonnenten in der Gemini-App eingeführt worden
  • Mit neuen Parallel-Denktechniken (parallel thinking) und aktuellen Forschungsergebnissen wurde, auf Basis eines IMO-Goldmedaillen-Modells, die Eignung für den praktischen Einsatz weiter verbessert
  • Zeigt hervorragende Leistungen bei unterschiedlichen anspruchsvollen Aufgaben wie kreativer Problemlösung, mathematischem und wissenschaftlichem Schlussfolgern sowie der Entwicklung von Algorithmen
  • Um die Leistung zu steigern, wird die Denkzeit (Thinking Time) verlängert, sodass verschiedene Ideen und Lösungsansätze gleichzeitig erkundet werden, was tiefere Überlegungen und kreativere Ergebnisse ermöglicht
  • Zur Sicherheit und verantwortungsvollen KI-Entwicklung wurden die Evaluierung und Gegenmaßnahmen verstärkt, und der weitere Ausbau für API- und Enterprise-Nutzung wurde angekündigt

Veröffentlichung von Gemini 2.5 Deep Think

  • Die Funktion Gemini 2.5 Deep Think wird Google AI Ultra-Abonnenten über die Gemini-App bereitgestellt
  • Es handelt sich um eine Version, die Feedback von vertrauenswürdigen Testern und Forschenden sowie aktuelle Forschungsergebnisse einbezieht
  • Basierend auf einem Modell auf Goldmedaillen-Niveau beim jüngsten International Mathematical Olympiad (IMO) wurden Geschwindigkeit und Praxistauglichkeit für reale Nutzererfahrungen verbessert
  • Mit dieser Veröffentlichung wird die Eignung als Werkzeug für kreative Problemlösung erweitert, mit dem Ziel, die Funktionen auf Basis von Rückmeldungen von Mathematikerinnen, Mathematikern und Forschenden weiter zu optimieren

Funktionsweise von Deep Think

  • Durch den Einsatz von parallelem Denken kann Gemini komplexe Probleme analysieren, indem es zugleich verschiedene Ideen und Lösungsansätze exploriert, vergleicht und kombiniert
  • Die Denkzeit (Thinking Time) des Modells wurde verlängert, damit mehrere Hypothesen vertieft untersucht und kreativere Lösungswege gefunden werden
  • Durch Reinforcement Learning wurde gelernt, diese erweiterten Schlussfolgenpfade aktiv zu nutzen und die intuitive sowie tiefere Problemlösung deutlich zu verbessern

Hauptleistungen und Einsatzgebiete von Deep Think

  • Inkrementelle Entwicklung und Design: Erreicht hohe Leistung bei der schrittweisen Weiterentwicklung komplexer Systeme oder Designs
  • Wissenschaftliche und mathematische Entdeckung: Besonders stark bei anspruchsvollen kreativen Fragestellungen wie mathematischem Schlussfolgern oder der Interpretation wissenschaftlicher Arbeiten
  • Algorithmus- und Codeentwicklung: Liefert führende Ergebnisse bei schwierigen Programmierproblemen, bei denen Strukturierung, Zeitkomplexität und Trade-offs berücksichtigt werden müssen
  • Auf aktuellen Benchmarks (z. B. LiveCodeBench V6, Humanity’s Last Exam) belegt es erstklassige Leistungen in Code-, Wissens- und Schlussfolgerungsaufgaben im Vergleich zu früheren Modellen

Verantwortungsvolle Entwicklung und Sicherheit von Gemini

  • Gemini 2.5 Deep Think zeigt in Sicherheitsbewertungen bessere Inhaltsicherheit und einen objektiveren Ton als frühere Pro-Modelle
  • Mit steigender Komplexität wird das Risiko ebenfalls bewertet; die Frontier-Safety-Bewertung und notwendige Gegenmaßnahmen wurden verstärkt
  • Detaillierte Sicherheitsresultate sind in der Model Card einsehbar

So nutzen Sie Deep Think

  • Google AI Ultra-Abonnenten können im Modell-Dropdown der Gemini-App nach Auswahl von 2.5 Pro den Deep Think-Schalter in der Prompt-Bar aktivieren und das Feature bis zu einer vorgegebenen Anzahl pro Tag nutzen
  • Codeausführung, Google Search und andere Tools sind automatisch integriert, wodurch deutlich längere Antworten entstehen
  • Künftig sind weitere Tests für Gemini API und Enterprise geplant

1 Kommentare

 
GN⁺ 2025-08-02
Hacker-News-Kommentare
  • Ich habe den neuen Deep-Think-Agenten getestet, aber nach nur fünf Prompts sofort das tägliche Nutzungslimit erreicht. Für einen Service in dieser Qualität bei $250 im Monat ist das schon enttäuschend. Gegenüber o3-pro oder Grok 4 Heavy ist die Preisleistung deutlich schlechter. In der AI-Community galt diese Funktion als der einzige Teil, der den Preis von Google Ultra halbwegs rechtfertigen könnte. Umso unverständlicher ist es, dass Google im AI Studio sein bestes Modell kostenlos anbietet, zahlende Ultra-Abonnenten aber mit so einer Abrechnungspolitik abspeist. Was die Leistung angeht: Bei einem schwierigen geschäftlichen Problem bekam ich eine klare und überzeugende Lösung, die mit dem Ergebnis unseres internen Meetings übereinstimmte. Am Ende kam o3 aber für deutlich weniger Geld zu einem sehr ähnlichen Schluss. Der Bericht von o3 wirkte nur etwas weniger sauber strukturiert. Ich muss es wohl noch weiter testen

    • Vielleicht ist das Produkt noch nicht vollständig für den kommerziellen Einsatz vorbereitet oder optimiert, aber es könnte eine Strategie sein, es noch vor dem EU AI Act am 2. August zu veröffentlichen und dann zwei Jahre Zeit für die Anpassung an die Vorgaben zu haben. Deshalb wurde es womöglich zuerst mit strengen Nutzungslimits nur für einen kleinen Nutzerkreis freigegeben
    • Mich interessiert, wie sich Deep Think bei Aufgaben mit großem Kontextfenster schlägt. Parallel Thinking könnte für bestimmte Problemtypen sehr nützlich sein, also würde ich gern testen, ob es mehr Kontext verarbeiten kann als klassische Chain-of-Thought-Ansätze
    • Vor einigen Jahren war Programmierkönnen für mich daran messbar, ob man ohne Websuche oder nach dem Posten einer gut formulierten Frage auf StackOverflow selbst auf die Antwort kam. Es war immer ein tolles Gefühl, wenn dann Kommentare wie „Ich habe drei Tage daran festgehangen, diese Antwort hat mein Leben gerettet“ kamen. Diese Woche arbeite ich an einem schwierigen Problem, aber Copilot-artige AI-Modelle helfen fast gar nicht. Echtes Können beim Programmieren spürt man erst dann, wenn niemand hilft, nicht einmal AI, und man selbst generalisieren, synthetisieren und kreativ denken muss. Das ist für mich ein kleiner Trost, dass AI-Coding-Agenten uns noch nicht komplett ersetzen werden
    • Ich habe sowohl Grok 4 als auch 4 Heavy verwendet, und meiner Erfahrung nach sind beide wirklich schlecht. Es ist egal, wie viele Queries man eingeben kann, wenn die Antworten miserabel sind. Das war dieses Jahr meine schlechteste Ausgabe für LLMs. Ich habe viel Geld für verschiedene AI-Angebote ausgegeben, aber das für Grok bereue ich am meisten
    • Es überrascht mich immer wieder, dass Google sein Topmodell im AI Studio gratis bereitstellt und realen Kunden dann nur minimale Vorteile gibt. Andererseits ist das auch nicht wirklich überraschend. Wahrscheinlich macht Google mit AI-Ultra-Kunden gar nicht die großen Margen und misst den massiven Nutzerdaten aus dem Free Tier von AI Studio mehr Bedeutung bei. Wenn man das beste Modell kostenlos öffnet, gewinnt man leicht Marktanteile bei den anspruchsvollsten Nutzern. Später kann man diese dann monetarisieren, und zugleich ist es eine gute Strategie, ungenutzte Serverkapazitäten auszunutzen
  • Leute, ich habe Gemini Deep Think mit „Erstelle ein SVG-Bild eines Pelikans auf einem Fahrrad“ gefüttert, und das kam dabei heraus: https://www.svgviewer.dev/s/5R5iTexQ Simon Willison war ich damit zuvor!

    • Alles, was auf HN zum Meme wird, landet zwangsläufig in den Trainingsdaten. Die Vorstellung, dass bei jeder AI-Firma ein Praktikant schweißgebadet an einem coolen Pelikan-SVG sitzt, ist herrlich
    • Ich habe es mir eben angesehen und war überrascht, wie eindeutig es wie ein Pelikan aussieht, ziemlich gut
    • Solche Meme-Benchmarks, etwa Erdbeerbilder, sind lustig, aber inzwischen so oft im Modelltraining gelandet, dass sie als Messmethode leicht zu verfälschen sind
    • Das ist genau die Art von Wert, bei der man das Gefühl hat, wirklich in der Zukunft zu leben
    • Ehrlich gesagt ist das zum ersten Mal ein Ergebnis, bei dem ich allein anhand des SVG ohne Prompt sagen würde: Ja, das ist eindeutig ein Pelikan auf einem Fahrrad. Auch der Vocal-Tower-Fall ist beeindruckend. In Sachen visuellem und räumlichem Verständnis ist das schon ein beachtlicher Fortschritt
  • Wer es selbst ausprobieren will, kann die LLM-CLI von simonw und das Plugin llm-consortium verwendenVorteil 1: Man kann beliebige Modelle frei kombinieren. Die Zusammenstellung lässt sich unabhängig vom jeweiligen Labor nach Wunsch konfigurierenVorteil 2: Mit dem Plugin llm-model-gateway lässt sich alles auf einmal über eine lokale API mit der eigenen App oder einem Coding-Kollaborationstool verbinden https://x.com/karpathy/status/1870692546969735361
    Installations- und Beispielbefehle sowie sogar ein Beispiel dafür, dass man auch ein consortium of consortium machen kann, wurden direkt mitgeliefert.
    https://GitHub.com/irthomasthomas/llm-consortium

    • Ich frage mich, warum man das eine lokale Version von Gemini Deep Think nennt. Multi-Agent-Strukturen lassen sich doch auf viele Arten umsetzen. Außerdem können sich Fehler wegen der Kovarianz mehrerer Modelle synchronisieren, daher halte ich es für wichtig, durch unterschiedliche Strukturkombinationen die Fehlerkorrelation zu senken, ohne die Einzelgenauigkeit zu verlieren. Das würde ich gern auf Benchmarks mit mehreren möglichen Lösungswegen testen
    • Ich frage mich, ob die Europäische Union ein consortium of consortiums ist
    • Falls jemand ein OpenWebUI-Plugin kennt, das so etwas unterstützt, bitte Bescheid sagen
    • Es wurde erwähnt, dass der Befehl llm serve nicht zu sehen ist
  • Es ist nicht dasselbe Modell, das vor einigen Wochen bei der IMO eine Goldmedaille geholt hat, aber ein sehr naher Verwandter https://x.com/OfficialLoganK/status/1951262261512659430Es ist noch nicht per API verfügbar

  • Dieser Ansatz ähnelt Grok 4 Heavy: Mehrere „Reasoning“-Agenten laufen parallel, vergleichen anschließend ihre Antworten miteinander und wählen die beste aus; das dauert ungefähr 30 Minuten. Die Resultate sind hervorragend, aber für einen fairen Benchmark-Vergleich sollte man es eigentlich eher mit Grok 4 Heavy als mit Grok 4 vergleichen, da Letzteres ein schnelleres Single-Agent-Modell ist

    • Wenn man dieselbe Reasoning-Rechenleistung auf mehrere Agenten verteilt, kommt oft ein besseres Ergebnis heraus. Selbst das Problem, dass Antworten schlechter werden, wenn ein Modell „zu lange nachdenkt“, kann man so überwinden, indem man mehrere kurze Denkpfade parallel laufen lässt
    • Im Artikel heißt es, Deep Think gelange per parallelem Denken zur Lösung, indem es verschiedene Ideen gleichzeitig erzeugt, parallel bewertet, integriert und überarbeitet. Aus dieser Beschreibung geht für mich nicht klar hervor, ob tatsächlich mehrere Agenten genutzt werden, daher lässt sie verschiedene Interpretationen zu
    • Grok-4 Heavy verwendet Tools, um viele Benchmark-Probleme recht einfach zu lösen, daher ist ein direkter Vergleich nur eingeschränkt aussagekräftig
    • Ich frage mich, wie sich Googles Ansatz von Mixture of Experts unterscheidet. Bei Mixture of Experts werden für die einzelnen Experten unterschiedliche Gewichte gelernt, während man hier die Vielfalt des Denkens offenbar nur über Temperature-Anpassungen erzeugt. Mich würde interessieren, ob es Paper gibt, die sauber vergleichen, was besser ist: dasselbe Modell mehrfach laufen zu lassen, um mehr Ideenvielfalt zu bekommen, oder mehrere Modelle mit unterschiedlicher Architektur bzw. unterschiedlichen Gewichten parallel zu betreiben
    • Es überrascht mich, dass es noch keine App gibt, die die großen LLMs in einer Art Wettstreit nebeneinander laufen lässt und dann die beste finale Antwort auswählt
  • OpenAI ist auf $200 gegangen, Anthropic auf $100 bzw. $200, Gemini auf $250 und Grok sogar auf $300. Nur OpenAI spricht von „praktisch unbegrenzt“, und im ChatGPT-Pro-Plan habe ich das Limit tatsächlich noch nie erreicht. Bei Claude Max bin ich dagegen mehrfach an Grenzen gestoßen. Ich frage mich, warum diese Unternehmen ihre Limits nicht klar offenlegen

    • Es geht um doppelte Abschöpfung. Bei fairer Preisgestaltung würde man die Kosten pro Query oder pro Token ausweisen und Nutzer nur für den tatsächlichen Verbrauch zahlen lassen. Die Firmen wollen aber regelmäßige Fixeinnahmen und gleichzeitig die reale Nutzung möglichst niedrig halten, deshalb verkaufen sie das Ganze als monatlich oder jährlich scheinbar unbegrenztes Abo. Am Ende zahlt man so mehr als für die tatsächliche Nutzung
    • Der eigentliche Grund, Limits nicht im Voraus offenzulegen, ist wohl, dass die Firmen sie je nach Marktlage oder Infrastrukturbelastung flexibel anpassen wollen. Wenn plötzlich wie damals beim ChatGPT-Bildgenerator im Ghibli-Hype der Traffic explodiert, ziehen sie die Grenzen an; wenn es so wie jetzt entspannter ist, lockern sie sie wieder
    • Wenn man Limits transparent macht, fangen Nutzer an, sie mit Tricks voll auszureizen, und am Ende sinkt das Limit für alle. Es nicht offenzulegen ist deshalb in der Praxis vermutlich für die meisten die bessere Wahl
  • In den letzten Monaten habe ich Gemini genutzt und das Gefühl, dass es eher immer schlechter wird. Halluzinationen kommen viel zu häufig vor, und selbst wenn man darauf hinweist, beharrt die AI darauf. Das macht es schwer, ihr zu vertrauen

    • Meiner Erfahrung nach wird Flash dagegen immer besser. Obwohl ich für Pro bezahle, nutze ich viel öfter Flash. Pro ist enttäuschend, weil es häufig kaum nach aktuellen Informationen sucht und stattdessen alte Trainingsdaten wiederkäut, während Flash dieses Problem fast nie hat. Für Coding nutze ich Pro in der Gemini CLI, und dort ist es extrem stark, nicht nur beim Schreiben von Code, sondern auch beim Erstellen von Design-Dokumenten, beim Zerlegen von Wochenaufgaben und beim Planen von Zeitabläufen. Wenn man ihm eine ordentliche Struktur vorgibt, scheint es seinen eigenen Kontext erstaunlich gut selbst mitzunehmen
    • Ich habe eine ähnliche Erfahrung gemacht. Gemini Pro benutze ich gar nicht mehr. Es ist zu weitschweifig und inhaltlich widersprüchlich. Claude Sonnet 4 antwortet gut. In letzter Zeit wirkt es, als habe Sonnet den Leistungsabstand zu Opus stark verkleinert. Seit das neue Quota-System eingeführt wurde, greife ich zuerst zu Sonnet. Inzwischen löst es im Vergleich zu Opus die meisten schwierigen oder komplexen Probleme ebenfalls gut. Noch vor ein paar Monaten hätte ich das so nicht gesagt
    • Ich habe ebenfalls das Gefühl, dass Gemini mit der Zeit schlechter wird. Allerdings ist es schwer, diesen Unterschied in Benchmarks wie fiction.livebench zu quantifizieren. Ich frage mich, ob das Modell vielleicht zu aggressiv quantisiert wird, was Leistung kostet, oder ob einfach unsere Erwartungen ständig steigen
    • Ich würde gern wissen, ob es vor allem an der Tool-Integration liegt und ob du es im AI Studio oder über die API nutzt. In meiner Erfahrung erfindet es oft nicht existierende Tools und tritt dabei übertrieben selbstsicher auf
  • Google-AI-Ultra-Abonnenten können ab heute Deep Think in der Gemini-App nutzen, mit einer festen Anzahl an Prompts. Mich würde aber genauer interessieren, ob „fester Satz“ eine feste Anzahl meint oder ob bestimmte Prompt-Typen vorgegeben sind

    • Das Limit liegt bei 10 Anfragen pro Tag. Da ein einzelner Prompt ungefähr 30 Minuten Denkzeit braucht, ist das eher für Forschung oder mehrschichtig-synthetische Probleme gedacht als für gewöhnliches Coding oder Fanfiction
  • Wenn ich mit Gemini CLI Zeitpläne erstelle, versucht es oft trotzdem eigenmächtig Änderungen vorzunehmen und bringt den Plan durcheinander, selbst wenn ich mehrfach klar eingreife und sage, dass es keine spontanen Aktionen machen soll

    • Diese Agent-Systeme stiften oft eher Verwirrung. Claude Code von Anthropic ist beliebt, weil es die Modellleistung möglichst gut zur Geltung bringt. Gemini CLI verschlechtert dagegen eher die eigentliche Leistung von Gemini Pro 2.5. Deshalb habe ich Gemini CLI inzwischen komplett aufgegeben, selbst wenn es kostenlos ist. Für promptzentrierte Arbeit ist Gemini aber weiterhin sehr stark, daher nutze ich es regelmäßig
    • Bei mir ähnlich. Wenn man Gemini CLI einfach eine abstrakte, große Aufgabe überlässt, macht es ständig Fehler. Gibt man ihm aber etwas Struktur, vor allem indem man die Erstellung des Kontexts in einzelne Schritte aufteilt, liefert es wirklich erstaunliche Ergebnisse. Im ersten Schritt lasse ich es nur den Code lesen und ein Anforderungsdokument schreiben. Danach soll es auf Basis dieses Dokuments schrittweise eine detaillierte Spezifikation, ein API-Design und Pseudocode für knifflige Logik ausarbeiten. Am Ende zerlege ich die gesamte Entwicklung in einen Arbeitsplan nach Wochen, Tagen und Stunden und lasse erst dann mit genügend Informationen den eigentlichen Code schreiben. Vollautomatisiert könnte man das wohl auch skripten, aber in der Praxis ist es effektiver, wenn ein Mensch prüft, Feedback gibt und man wiederholt brainstormt. Dabei erzeugt das Modell über 90 % des Kontexts selbst, und mit dieser Methode macht es zuletzt bei den meisten Aufgaben fast keine Fehler mehr