- Gemini 2.5 ist das bislang intelligenteste auf Schlussfolgern basierende KI-Modell, entwickelt zur Lösung komplexer Probleme
- Die erste Veröffentlichung, Gemini 2.5 Pro Experimental, erzielt Spitzenleistungen in zahlreichen KI-Benchmarks
- Besonders in der Rangliste von LMArena belegt es mit großem Abstand Platz 1
- Anders als bisherige Modelle ist es mit einer Struktur konzipiert, die vor der Antwort einen eigenen Denkprozess durchläuft, wodurch Genauigkeit und Leistung verbessert werden
Was bedeutet die Fähigkeit zum „Denken“ in der KI?
- Sie geht über einfache Klassifikation oder Vorhersage hinaus und umfasst höherwertige kognitive Fähigkeiten wie Informationsanalyse, logische Schlussfolgerung, Kontextverständnis und Entscheidungsfindung
- Dafür hat DeepMind die Schlussfolgerungsfähigkeit von KI unter anderem mit Reinforcement Learning und Chain-of-Thought-Prompting erforscht
- Das Modell zeigt eine gegenüber dem bisherigen Gemini 2.0 Flash Thinking nochmals weiterentwickelte Leistung
Die weitere Richtung
- Mit Gemini 2.5 wird durch die Kombination verbesserter Basismodelle und Nachbearbeitungstechniken ein neues Leistungsniveau erreicht
- Künftig soll diese Denkfähigkeit in allen Gemini-Modellen standardmäßig integriert werden, um komplexere Problemlösungen und fortgeschrittene Agenten zu ermöglichen
Einführung in Gemini 2.5 Pro
- Gemini 2.5 Pro Experimental zeigt bei den bislang entwickelten Modellen herausragende Leistung bei der Bewältigung der komplexesten Aufgaben
- In LMArena, das auf Basis menschlicher Präferenzen bewertet, belegt es mit großem Abstand Platz 1
- Auch in Benchmarks für Coding, Mathematik und Wissenschaft zeigt es hervorragende Leistung
- Es ist derzeit in Google AI Studio und der Gemini-App verfügbar und soll bald auch in Vertex AI angeboten werden
- Künftig wird ein Preismodell eingeführt, um einen skalierbaren Service mit höheren Aufruflimits zu ermöglichen
Verbesserte Schlussfolgerungsleistung
- Bei der Lösung komplexer Logikprobleme erreicht es Benchmark-Ergebnisse auf Spitzenniveau
- Auch ohne kostenintensive zusätzliche Testverfahren, etwa Mehrheitsabstimmung, hält es eine starke Leistung
- Bei Mathematik- und Wissenschaftsaufgaben wie GPQA und AIME 2025 zeigt es führende Ergebnisse
- Im anspruchsvollen Schlussfolgerungstest „Humanity’s Last Exam“, der von Hunderten Fachleuten entwickelt wurde, erzielt es ohne Tools mit 18,8 % den branchenweit besten Wert
Fortschrittliche Coding-Leistung
- Die Coding-Leistung wurde gegenüber Gemini 2.0 deutlich verbessert
- Es ist besonders stark bei der Erstellung von Web-Apps, agentischem Coding sowie Code-Transformation und -Überarbeitung
- In der Bewertung SWE-Bench Verified erreicht es mit einem angepassten Agenten 63,8 %
- Es gibt auch ein Beispiel, in dem mit nur einer einzigen Prompt-Zeile ein ausführbares Videospiel erzeugt wird
Übernahme der Stärken der Gemini-Modelle
- Gemini 2.5 behält die bisherigen Stärken der Gemini-Modelle bei, darunter multimodale Verarbeitung und ein langes Kontextfenster
- Unterstützung für ein Kontextfenster von 1 Million Tokens (bald Erweiterung auf 2 Millionen)
- Es kann verschiedenste Informationsquellen integriert verarbeiten, darunter Text, Audio, Bilder, Videos und komplette Code-Repositories
- Entwickler und Unternehmenskunden können über Google AI Studio, Gemini Advanced und Vertex AI damit experimentieren und es testen
3 Kommentare
Es übertrifft
claud,gpt4.5, schafft es aber nicht, wenn mangrok3mehrfach ausprobiert.grok3ist beeindruckend.Mit dem Erscheinen von Gemini 2.5 Pro in Google AI Studio sind die bisherigen Gemini 2.0 Pro offenbar alle verschwunden. Ich hatte sie kostenlos ziemlich nützlich im Einsatz, daher ist das etwas schade. Bei Gemini 2.5 Pro scheinen die Beschränkungen mit zwei Anfragen pro Minute und nur bis zu 50 Aufrufen pro Tag ziemlich einschneidend zu sein.
Hacker-News-Kommentare
Eines der größten Probleme beim Einsatz von LLMs zum Schreiben langer Texte wie Romane ist, dass das Modell übermäßig nervös reagiert, wenn man Details vorgibt
Ich habe verschiedene Modelle mit mathematischen Rätseln als Benchmark getestet
Bei Audio-Transkription und beim Zeichnen von Bounding Boxes um Lebewesen in komplexen Fotos hat es sehr gut abgeschnitten
Es hat in Benchmarks in beispielloser Weise Spitzenwerte erreicht
Gemini 2.5 Pro hat auf dem aider polyglot leaderboard mit 73 % einen SOTA-Wert erreicht
Solche Ankündigungen wirken langsam wie Vorlagen
Gemini 2.5 erreicht ein neues Leistungsniveau, indem es ein stark verbessertes Basismodell mit verbessertem Post-Processing kombiniert
Ich habe einen Testfall verwendet, bei dem ich einem LLM die gesamte Codebasis einer Dart-Bibliothek zusammen mit der Fehlerbeschreibung gegeben habe, um die Ursache eines Bugs zu identifizieren
Wenn man Gemini verwenden will, gibt es folgende Vorsichtshinweise
Das 2.0-Modell ist noch gar nicht so alt, daher frage ich mich, warum der Name ein +0.5 trägt