9 Punkte von GN⁺ 2025-03-26 | 3 Kommentare | Auf WhatsApp teilen
  • Gemini 2.5 ist das bislang intelligenteste auf Schlussfolgern basierende KI-Modell, entwickelt zur Lösung komplexer Probleme
  • Die erste Veröffentlichung, Gemini 2.5 Pro Experimental, erzielt Spitzenleistungen in zahlreichen KI-Benchmarks
  • Besonders in der Rangliste von LMArena belegt es mit großem Abstand Platz 1
  • Anders als bisherige Modelle ist es mit einer Struktur konzipiert, die vor der Antwort einen eigenen Denkprozess durchläuft, wodurch Genauigkeit und Leistung verbessert werden

Was bedeutet die Fähigkeit zum „Denken“ in der KI?

  • Sie geht über einfache Klassifikation oder Vorhersage hinaus und umfasst höherwertige kognitive Fähigkeiten wie Informationsanalyse, logische Schlussfolgerung, Kontextverständnis und Entscheidungsfindung
  • Dafür hat DeepMind die Schlussfolgerungsfähigkeit von KI unter anderem mit Reinforcement Learning und Chain-of-Thought-Prompting erforscht
  • Das Modell zeigt eine gegenüber dem bisherigen Gemini 2.0 Flash Thinking nochmals weiterentwickelte Leistung

Die weitere Richtung

  • Mit Gemini 2.5 wird durch die Kombination verbesserter Basismodelle und Nachbearbeitungstechniken ein neues Leistungsniveau erreicht
  • Künftig soll diese Denkfähigkeit in allen Gemini-Modellen standardmäßig integriert werden, um komplexere Problemlösungen und fortgeschrittene Agenten zu ermöglichen

Einführung in Gemini 2.5 Pro

  • Gemini 2.5 Pro Experimental zeigt bei den bislang entwickelten Modellen herausragende Leistung bei der Bewältigung der komplexesten Aufgaben
  • In LMArena, das auf Basis menschlicher Präferenzen bewertet, belegt es mit großem Abstand Platz 1
  • Auch in Benchmarks für Coding, Mathematik und Wissenschaft zeigt es hervorragende Leistung
  • Es ist derzeit in Google AI Studio und der Gemini-App verfügbar und soll bald auch in Vertex AI angeboten werden
  • Künftig wird ein Preismodell eingeführt, um einen skalierbaren Service mit höheren Aufruflimits zu ermöglichen

Verbesserte Schlussfolgerungsleistung

  • Bei der Lösung komplexer Logikprobleme erreicht es Benchmark-Ergebnisse auf Spitzenniveau
  • Auch ohne kostenintensive zusätzliche Testverfahren, etwa Mehrheitsabstimmung, hält es eine starke Leistung
  • Bei Mathematik- und Wissenschaftsaufgaben wie GPQA und AIME 2025 zeigt es führende Ergebnisse
  • Im anspruchsvollen Schlussfolgerungstest „Humanity’s Last Exam“, der von Hunderten Fachleuten entwickelt wurde, erzielt es ohne Tools mit 18,8 % den branchenweit besten Wert

Fortschrittliche Coding-Leistung

  • Die Coding-Leistung wurde gegenüber Gemini 2.0 deutlich verbessert
  • Es ist besonders stark bei der Erstellung von Web-Apps, agentischem Coding sowie Code-Transformation und -Überarbeitung
  • In der Bewertung SWE-Bench Verified erreicht es mit einem angepassten Agenten 63,8 %
  • Es gibt auch ein Beispiel, in dem mit nur einer einzigen Prompt-Zeile ein ausführbares Videospiel erzeugt wird

Übernahme der Stärken der Gemini-Modelle

  • Gemini 2.5 behält die bisherigen Stärken der Gemini-Modelle bei, darunter multimodale Verarbeitung und ein langes Kontextfenster
  • Unterstützung für ein Kontextfenster von 1 Million Tokens (bald Erweiterung auf 2 Millionen)
  • Es kann verschiedenste Informationsquellen integriert verarbeiten, darunter Text, Audio, Bilder, Videos und komplette Code-Repositories
  • Entwickler und Unternehmenskunden können über Google AI Studio, Gemini Advanced und Vertex AI damit experimentieren und es testen

3 Kommentare

 
wowfoot 2025-03-26

Es übertrifft claud, gpt4.5, schafft es aber nicht, wenn man grok3 mehrfach ausprobiert.
grok3 ist beeindruckend.

 
zxshinxz 2025-03-26

Mit dem Erscheinen von Gemini 2.5 Pro in Google AI Studio sind die bisherigen Gemini 2.0 Pro offenbar alle verschwunden. Ich hatte sie kostenlos ziemlich nützlich im Einsatz, daher ist das etwas schade. Bei Gemini 2.5 Pro scheinen die Beschränkungen mit zwei Anfragen pro Minute und nur bis zu 50 Aufrufen pro Tag ziemlich einschneidend zu sein.

 
GN⁺ 2025-03-26
Hacker-News-Kommentare
  • Eines der größten Probleme beim Einsatz von LLMs zum Schreiben langer Texte wie Romane ist, dass das Modell übermäßig nervös reagiert, wenn man Details vorgibt

    • Wenn man zum Beispiel ein Profil für das Love Interest in einer erzählerischen Fantasy-Geschichte liefert, trifft der Protagonist diese Person fast immer innerhalb von drei Seiten
    • Das ist eine unlogische Entwicklung, und Versuche, das zu ändern, bleiben wirkungslos
    • Das aktuelle Modell zeigt auch nach 19 erzeugten Seiten noch einen normalen Handlungsverlauf und enthält viele Details
    • Sehr beeindruckend
  • Ich habe verschiedene Modelle mit mathematischen Rätseln als Benchmark getestet

    • Dieses Rätsel brauchte per Computer etwa drei Tage zur Lösung, und ein Mathematikstudent löste es von Hand in einem Tag
    • Gemini 2.5 ist das erste Modell, das dieses Rätsel gelöst hat; das bedeutet, dass LLMs beim mathematischen Schlussfolgern besser sind als mehr als 95 % der Bevölkerung
    • Das Rätsel lautet: Drei Personen stehen im Kreis, über jedem Kopf schwebt eine positive ganze Zahl, und die Summe von zwei Zahlen ist gleich der dritten
    • Die erste Person sagt, dass sie ihre Zahl nicht kennt, die zweite sagt ebenfalls, dass sie sie nicht kennt, und die dritte sagt auch, dass sie sie nicht kennt
    • Als die erste Person erneut gefragt wird, antwortet sie mit 65
    • Gefragt ist nach dem Produkt der drei Zahlen
  • Bei Audio-Transkription und beim Zeichnen von Bounding Boxes um Lebewesen in komplexen Fotos hat es sehr gut abgeschnitten

    • Es hat sogar einen Pelikan auf einem Fahrrad gezeichnet
    • Zugehörige Notizen sind über den Link zu finden
  • Es hat in Benchmarks in beispielloser Weise Spitzenwerte erreicht

    • Es zeigt hohe Qualität und klare Ergebnisse, ist aber etwas langsam
    • Google gelingt erneut ein großer Wurf
  • Gemini 2.5 Pro hat auf dem aider polyglot leaderboard mit 73 % einen SOTA-Wert erreicht

    • Gegenüber früheren Gemini-Modellen ist das ein großer Sprung
    • Es ist das erste Gemini-Modell, das ein effizientes diff-ähnliches Bearbeitungsformat wirksam nutzt
  • Solche Ankündigungen wirken langsam wie Vorlagen

    • Ein State-of-the-Art-Modell
    • Benchmark-Vergleiche mit X, Y, Z
    • „Besseres“ Reasoning
    • Es könnte ein großartiges Modell sein, aber der sich wiederholende Text nimmt dem Ganzen den Reiz
  • Gemini 2.5 erreicht ein neues Leistungsniveau, indem es ein stark verbessertes Basismodell mit verbessertem Post-Processing kombiniert

    • Künftig sollen diese Denkfähigkeiten direkt in alle Modelle eingebaut werden, um komplexere Probleme zu bewältigen und leistungsfähigere, kontextbewusste Agenten zu unterstützen
    • Es ist mit dem Internet verbunden und arbeitet bei Bedarf als Reasoning-Modell
    • Hoffentlich wird der kürzlich veröffentlichte Canvas-Modus auch für dieses Modell unterstützt
  • Ich habe einen Testfall verwendet, bei dem ich einem LLM die gesamte Codebasis einer Dart-Bibliothek zusammen mit der Fehlerbeschreibung gegeben habe, um die Ursache eines Bugs zu identifizieren

    • Er umfasste etwa 360.000 Tokens
    • Ich habe das vor einem Monat mit den führenden Modellen versucht, aber nur dieses Modell hat die richtige Korrektur identifiziert
  • Wenn man Gemini verwenden will, gibt es folgende Vorsichtshinweise

    • Keine vertraulichen Informationen oder Daten eingeben, die von Reviewern gesehen oder von Google verwendet werden könnten
    • Zur Qualitätssteigerung von Google AI und zur Produktverbesserung lesen, annotieren und verarbeiten menschliche Reviewer die Unterhaltungen
    • Zum Schutz der Privatsphäre werden die Unterhaltungen dabei vom Google-Konto getrennt
  • Das 2.0-Modell ist noch gar nicht so alt, daher frage ich mich, warum der Name ein +0.5 trägt

    • Ich frage mich, ob das Marketing ist, auf eine neue Modellarchitektur hinweist, auf mehr Trainingsdaten auf Basis von 2.0 oder auf eine neue Service-Infrastruktur
    • Als die *.5-Namensgebung erstmals auftauchte, fand ich sie ziemlich albern
    • Als OpenAI 3.5 veröffentlichte, hieß es bereits, dass 4 in Vorbereitung sei und dass 3 für ChatGPT besser angepasst werde
    • Ich halte die Benennung von Modellen durch Anthropic mit Sonnet 3, 3.5, 3.5 (new) und 3.7 für den schlimmsten Fall dieser Namenskonvention
    • Ich bevorzuge semver, datumsbasierte Benennung ("Gemini Pro 2025") oder sinnvolle Kombinationen aus Buchstaben und Zahlen (z. B. 4o - "Omni")