1 Punkte von GN⁺ 2025-06-07 | 1 Kommentare | Auf WhatsApp teilen
  • Vor der offiziellen Veröffentlichung ist nun eine Preview-Version des neuesten Gemini 2.5 Pro verfügbar
  • In wichtigen Evaluierungen wie LMArena und WebDevArena stieg der Elo-Wert im Vergleich zum bisherigen Modell um 24 bis 35 Punkte
  • In zentralen Benchmarks für Coding, Wissenschaft, Mathematik, multimodales Verständnis und die Verarbeitung langer Kontexte wurde Spitzenleistung erzielt
  • Mit $1.25 Eingabepreis und $10 Ausgabepreis (pro eine Million Tokens) bietet es eine im Vergleich zur Konkurrenz günstige Kostenstruktur

Vergleich nach wichtigsten Benchmarks

  • Reasoning & Knowledge (Humanity's Last Exam): Mit 21.6% auf ähnlichem Niveau wie OpenAI und Anthropic, besser als DeepSeek R1 (14%)
  • Science (GPQA diamond): 86.4%, branchenweit beste Leistung (bei einem einzelnen Versuch)
  • Mathematics (AIME 2025): 88.0%, ähnlich wie OpenAI o3 und DeepSeek R1, höher als Anthropic Claude 4/3
  • Code Generation/Editing: LiveCodeBench 69.0%, Aider Polyglot 82.2%, hohe Genauigkeit sowohl bei Codegenerierung als auch bei Bearbeitung
  • Agentic Coding (SWE-bench Verified): 59.6% (Single), 67.2% (Multiple Attempts), etwas niedriger als Anthropic Claude 4, aber ähnlich wie OpenAI und DeepSeek
  • Factuality: SimpleQA 54.0%, FACTS Grounding 87.8%, stark bei der Generierung auf Basis realer Daten
  • Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval (Bild) 67.2%, VideoMMMU (Video) 83.6%, stark bei Text, Bild und Video
  • Long Context (MRCR v2, 128K): 58.0%, beste Leistung im Vergleich zu wichtigen Konkurrenzmodellen von OpenAI, Anthropic, xAI u. a.

Preise und unterstützte Sprachen

  • Eingabepreis: $1.25 / 1 Million Tokens ($2.50 ab 200K)
  • Ausgabepreis: $10 / 1 Million Tokens ($15 ab 200K)
  • Unterstützte Sprachen: mehr als 70 globale Sprachen (Multipolyglot 89.2%)

Einsatzbereiche und weitere Merkmale

  • Preview ab sofort in Google AI Studio und Vertex AI verfügbar
  • Zusätzliche Funktionen zur Steuerung von Kosten und Latenz für Entwickler wie Thinking Budget
  • Verbesserte Funktionen für den praktischen Einsatz bei Coding, Wissen, Multimodalität und Verarbeitung langer Texte

Fazit

  • Gemini 2.5 Pro ist der Konkurrenz in verschiedenen Bereichen wie Preis, Leistung, Vielseitigkeit, Multimodalität und langem Kontext überlegen
  • Bei der Einführung von AI für Unternehmen und Entwickler können klare benchmarkbasierte Vergleiche und Kosteneffizienz gemeinsam berücksichtigt werden

1 Kommentare

 
GN⁺ 2025-06-07
Hacker-News-Meinungen
  • Ich bin beeindruckt, dass Google in lmarena noch einmal rund 25 ELO zugelegt hat, und musste dabei daran denken, dass auch die vorherige Nr. 1 schon Gemini war. Nachdem ich in den letzten Wochen sowohl Gemini als auch Claude Opus 4 ausgiebig genutzt habe, fühlt sich Opus meiner Meinung nach in einer anderen Liga an. Bei komplexen TypeScript-Problemen habe ich mit Gemini erstmals erlebt, dass es sich irgendwann an derselben Stelle festbeißt oder sogar aufgibt und sagt, es könne es nicht lösen, während Opus es mühelos hinbekommt. Das ist vielleicht kein vollständiges Bild der Gesamtleistung, aber für mich liegt der Unterschied darin, dass Gemini Code eher mit Gewalt irgendwie zum Laufen bringt, während Opus das eigentliche Problem versteht und sauberer angeht. Ich hatte auch den Eindruck, dass Opus fantasievoller ist oder für agentische Aufgaben besser optimiert wurde. Besonders beeindruckend war, dass Opus einmal unerwartet eine Lösung gebaut hat, etwa ein playwright-Skript zu erstellen, den DOM zu dumpen und zu analysieren, um Interaktionsprobleme zu prüfen. Gemini versucht dagegen hartnäckig, direkt den Code zu lesen und den Bug zu finden, aber ich habe das Gefühl, dass dieser Ansatz Grenzen hat. Trotzdem ist Gemini ebenfalls ein großartiges Modell, und vor Version 4.0 hielt ich es sogar für das beste.

    • Ich persönlich bevorzuge sogar o3 gegenüber Opus 4, und nachdem ich im letzten Monat Hunderte Dollar für AI-Codegenerierungs-Tools ausgegeben habe, habe ich mir mein eigenes Ranking gemacht. Platz 1 ist o3, extrem stark bei Details, beim Erfassen des eigentlichen Problems und beim Schreiben von qualitativ hochwertigem Code, den man wirklich in Produktion einsetzen kann. Nachteile sind das Cutoff-Fenster, die Kosten und dass es Tools etwas zu sehr liebt. In Rails-Projekten ist das fast nie ein Problem, kann aber manchmal Auswirkungen haben. Platz 2 ist Opus 4 (über Claude Code genutzt), leistungsstark und günstiger als o3, daher mein hauptsächlicher Daily Driver. Ich nutze es oft so, dass Opus 4 plant und den ersten Entwurf erstellt und o3 diesen dann gründlich kritisiert und eine Feedback-Liste erstellt, um die Qualität wirklich auf Hochglanz zu bringen. Platz 3 ist Gemini 2.5 Pro, das neueste Release habe ich noch nicht ausprobiert, vorher stand es bei mir auf Rang 2. Jetzt ist es ungefähr auf Augenhöhe mit Sonnet 4 oder leicht davor, je nach Situation. Platz 4 Sonnet 4, es produziert viel Code, aber ohne direkte Anleitung und Kontrolle liefert es nicht wirklich qualitativ hochwertigen, prägnanten und tiefgehenden Code. Ich bin sehr penibel bei Codequalität und Struktur, etwa bei Benennungen und Wiederverwendbarkeit, daher akzeptiere ich laut den Cursor-Statistiken des letzten Monats nur 33 % der automatisch vorgeschlagenen Codes. Wenn es nicht den optimalen Weg nimmt, korrigiere ich fehlerhafte Anforderungen und verfeinere die Prompts weiter, um bessere Ergebnisse zu bekommen.

    • Das Beste an Gemini ist im Vergleich zu anderen Modellen eindeutig die Suche. Als ich es bat, eine E-Mail an jemanden zu verfassen, der über die Unternehmensdomain Spam verschickt, fand es die Abuse-E-Mail des Hosters, Domain-Informationen, MX-Server, IP, Rechenzentrum und alles Weitere. Es hat auch sofort eine wissenschaftliche Arbeit in einen Podcast umgewandelt, und das war überraschend unterhaltsam anzuhören.

    • Diese Woche habe ich Claude 4 und Gemini 2.5 dieselbe Aufgabe gegeben, und Gemini lieferte die richtige Antwort, während Claude es nicht richtig hinbekam. Gerade auch bei nicht besonders schweren Aufgaben wie dem Vergleich von SQL-Queries hat Gemini oft das tatsächliche Problem gefunden.

    • In der Praxis fühlt es sich oft je nach Situation unterschiedlich an. Manche Probleme löst Gemini ganz locker, um dann direkt danach an einem sehr simplen Bug zu scheitern, was ziemlich verwirrend ist. Mit o3 und Sonnet war es ähnlich, und 4.0 habe ich noch nicht genug verwendet, um es zu beurteilen. Ich habe das Gefühl, dass man Unterstützung braucht, um mehrere Modelle parallel zu evaluieren und die beste Lösung auszuwählen.

    • Ich wurde gefragt, ob ich auch mit o3 getestet habe. In meinem Anwendungsfall war o3 deutlich beeindruckender als Opus 4.

  • Mit Blick auf den Marktwert von OpenAI mache ich mir zunehmend Sorgen. Es gibt inzwischen viele starke Wettbewerber, und die Einschätzung, dass OpenAI nicht mehr der unangefochtene Leader ist, wirkt plausibel. Ich frage mich, wie man bei einer Bewertung von 300 Milliarden Dollar künftig noch weiteres Kapital einsammeln will. Wenn die Umsätze klein bleiben und die Kosten für Hardware und Strom weiter steigen, ist der tatsächliche Wert schwer zu beziffern. In dem Moment, in dem die nächste LLM-Generation neue Daten braucht, dürften Facebook und Google strukturell im Vorteil sein. OpenAI hat selbst nicht viele datenreiche Geschäftsbereiche und ist deshalb im Wettbewerb um proprietäre Daten im Nachteil. Als das Unternehmen sowohl in der Forschung als auch bei Consumer-Apps vorne lag, ließ sich die hohe Bewertung noch rechtfertigen, aber heute ist die Grundlage für dieses Vertrauen schwach. Es ist fraglich, welchen Gewinn neue Investoren bei OpenAI überhaupt noch erwarten können. Eine Bewertung von 300 Milliarden Dollar impliziert normalerweise eher 150 Milliarden Umsatz bei einem Umsatzmultiplikator von 2, und selbst bei einem extremen KGV von 100 bräuchte man 3 Milliarden Jahresgewinn sowie zehn Jahre lang eine Verdopplung des Wachstums, also ein Szenario wie bei Amazon in den 2000ern. Hinzu kommt, dass die aktuelle Non-Profit-/For-Profit-Struktur einen Börsengang womöglich ohnehin erschwert. Glückwunsch an Google, das aus meiner Sicht gute Chancen hat, der größte Gewinner des AI-Wettbewerbs zu werden.

    • Ich denke, dass es große Missverständnisse über OpenAIs Stellung im Markt gibt. "chatgpt" ist bereits zu einem Alltagsverb geworden, während Claude oder Gemini der breiten Öffentlichkeit praktisch gar nicht bekannt sind. Solange nichts wirklich Disruptives passiert, gibt es für die Masse keinen Grund, auf ein anderes Produkt umzusteigen. Allein die Bequemlichkeit von ChatGPT mit Gesprächsverlauf, Memory und Export-Struktur schafft bereits genug Wechselbarrieren. Bei 500 Millionen aktiven Nutzern muss OpenAI im Grunde nur die Qualität halten. Wenn das aktuelle Paradigma bestehen bleibt, kann man auch dann erfolgreich sein, wenn man technologisch nicht ständig führt, solange man die Technik anderer einholt. Normale Nutzer wechseln ihr Produkt nicht wegen kleiner Verbesserungen.

    • Es wurde darauf hingewiesen, dass in der Bewertungsrechnung ein Fehler steckt. Nicht das Doppelte von 300 Milliarden Dollar Umsatz, sondern 150 Milliarden Dollar Umsatz wäre korrekt. Die Grundthese bleibt aber bestehen.

    • Ein Bereich, in dem OpenAI derzeit eindeutig stärker ist, ist die Bildgenerierung. Bei Illustrationen, Comics, Fotobearbeitung und Ideen für Heimwerkerprojekte gibt es dort einen klaren Unterschied.

    • Selbst wenn Google den AI-Wettbewerb gewinnt, wird das Suchgeschäft trotzdem angegriffen werden, und ob sich durch AI überhaupt wirtschaftliche Rendite aus Marktführerschaft abschöpfen lässt, ist weiterhin offen. Man muss zwar mitspielen, aber wahrscheinlich wäre das frühere werbezentrierte Monopol angenehmer gewesen.

    • Da o3 pro und GPT 5 kurz vor dem Start stehen, ist es noch zu früh, um sicher zu sagen, dass OpenAI nicht mehr der Leader ist. Erst wenn diese beiden Modelle keinen sichtbaren Fortschritt zeigen, kann man ernsthaft von einem Führungsverlust sprechen. Im Moment wirkt es mindestens so, als läge OpenAI mit Google und anderen gleichauf.

  • Schon drei Preview-Versionen desselben Modells herauszubringen ist verwirrend, und dass dann auch noch die letzten beiden Datumsangaben (05-06 und 06-05) vertauscht wirken, macht es noch chaotischer. Ein Tag später hätte es viel klarer gewirkt, was etwas schade ist.

    • Wegen der Mehrdeutigkeit des Datums müsste man es eigentlich bis zum 13. hinauszögern, damit es nicht mehr missverständlich ist. In Kanada werden britische und amerikanische Datumsformate gemischt, was wirklich verwirrend ist. Inzwischen ist das Format y-m-d offiziell zulässig und verbreitet sich zunehmend.

    • Dass 05-06 und 06-05 so leicht zu verwechseln sind, fühlt sich fast wie offener Spott über OpenAIs 4o- und o4-Modelle an.

    • Ich frage mich, wann Gemini von 2.5 pro auf 2.6 pro springt. Bei Gemini 3 wird die Größe vermutlich noch weiter zunehmen.

    • Entwickler sind einfach notorisch schlecht im Benennen, als Scherz gemeint.

  • Ich habe zwei Probleme, die ich nur bei Gemini wahrnehme.

    1. Es benennt Variablen um, obwohl ich nicht ausdrücklich darum gebeten habe.
    2. Es vergisst gelegentlich schließende Klammern. Ich mag kurze Variablennamen und verwende manchmal einfach nur "json", danke für das Feedback, aber wenn solche Änderungen zu häufig vorkommen, wird Code Review schwierig.
    • Ein konkreter Fall, den Gemini falsch behandelt: Obwohl der Code klar processing_class=tokenizer angibt und ich ihn mehrfach korrigiert habe, ändert Gemini es immer wieder zu tokenizer=tokenizer. Selbst wenn ich groß als Kommentar DO NOT CHANGE dazuschreibe, ändert es das weiterhin falsch. Die neueste Version (06-05) habe ich noch nicht ausprobiert, aber schon im vorherigen 05-06 trat derselbe Fehler wiederholt auf.

    • Eigentlich gehört o1-pro zusammen mit Gemini bei mir zur absoluten Spitzengruppe. Aber Gemini fügt zu viele unnötige Kommentare und irrelevante Codeänderungen ein, sodass es sich für die echte Arbeit schwer einsetzen lässt. Zur Ideenfindung hilft es, aber für die endgültige Lösung nutze ich dann o1-pro.

    • Gemini fügt wirklich absurde, nicht ausführbare Kommentare in Massen hinzu. Dinge wie "# Added this function" oder "# Changed this to fix the issue". Solche Sachen gehören in Commit-Messages oder PRs, nicht als Kommentare in den Code, und genau das stört mich.

    • Auch ChatGPT ignoriert bestimmte Anweisungen oft komplett. Wenn man zum Beispiel noch so deutlich sagt, dass es keine Em Dashes oder En Dashes verwenden soll, baut es sie eher noch häufiger ein. Ich habe das mehrfach versucht und nie zuverlässig kontrollieren können.

  • Ich bezahle sowohl für ChatGPT Plus als auch für Gemini Pro. Bei ChatGPT stoße ich ständig an Rate Limits und überlege deshalb zu kündigen. Bei Gemini/AI Studio bin ich bisher noch nie an ein Rate Limit gestoßen.

    • AI Studio nutzt tatsächlich ein API-Konto im Backend, und es wird automatisch ein Google-Cloud-Free-Tier-Projekt erstellt. Unten auf der Seite "get an api key" kann man ein Abrechnungskonto verknüpfen. Die Free-Tier-API kann laut Googles Nutzungsbedingungen möglicherweise nicht als kommerzielle Nutzung gelten, und Prompts könnten von Menschen geprüft und als Trainingsdaten verwendet werden.

    • Da AI Studio die API nutzt, ist es für normale Nutzer faktisch extrem selten, bei einem kostenpflichtigen Preview-Modell überhaupt an Grenzen zu stoßen.

    • Gemini gefiel mir deutlich besser als ChatGPT, aber seit Kurzem gibt es im Pro-Tarif ein Limit von 100 Nachrichten pro Tag. AI Studio scheint diese Begrenzung bislang nicht zu haben.

    • Ich frage mich, ob es einen besonderen Grund gibt, die API nicht über einen Vermittler wie openrouter zu nutzen.

  • Bei den früheren Gemini-Modellen hatte ich das Gefühl, dass sie sich für Coding-Unterstützung schlechter eignen als Claude 3.7 Sonnet (4 fand ich noch schwächer). Ich will die neue Version auch erst ausprobieren, wenn es echte Erfahrungswerte dazu gibt. Dass Gemini im Internet so viel gelobt wird, passt so wenig zu meinen Erfahrungen, dass ich mich frage, ob da nicht offenes Marketing oder künstlicher Hype mitspielt.

    • Meiner Ansicht nach hängt die Bewertung jedes Modells stark davon ab, was man konkret damit macht. Claude 3.5/3.7 Sonnet ist für C/C++/Make/CMake bei mir praktisch unbrauchbar. Ich hatte schlechte Erfahrungen mit falschen Informationen, nicht ausführbarem Code, erfundenen Syntaxen oder APIs und logischen Widersprüchen. Gemini 2.5-pro und o3 waren dagegen überwältigend gut, so gut, dass mein ganzes Team sie für überlegen hält. Vielleicht ist Claude stärker bei TypeScript oder Ruby, aber zumindest in meinem Arbeitsalltag ist Gemini deutlich mehr als nur Werbehype.

    • Ich habe Claude zwar nicht benutzt, aber Gemini gibt mir bei alltäglichen Fragen immer bessere Antworten als ChatGPT oder Copilot. Gerade für Suchanwendungen, etwa Command-Line-Methoden oder Produktinformationen, hat Gemini klare Stärken.

    • In Aider wechsle ich zwischen Sonnet und Gemini hin und her. Seltsamerweise kann manchmal nur eines der Modelle ein Problem lösen, und es gibt kein erkennbares Muster im Voraus.

    • Ich finde zwar, dass Claude 3.7 Sonnet als Coding-Assistent besser ist als Gemini, aber bei Data Science oder komplexem Python-ETL war Claude enttäuschend und o3 viel stärker.

    • In Roo Code ist Claude besser bei der Tool-Nutzung, aber der knappe Code-Stil von Gemini entspricht mehr meinem Geschmack. Ich nutze beide gemischt oder nehme das andere, wenn eines scheitert.

  • Statt Preview-Versionen immer nur mit einem Datum zu veröffentlichen, wäre es besser, einfach die Patch-Nummer zu erhöhen.

    • Wenn man das bestehende Ökosystem rund um ältere Versionen nicht beeinträchtigen will, muss man größere Updates allerdings als neues Modell abspalten.
  • In Aider steht es bei 82.2. In der Praxis liegt es damit aber weiterhin hinter dem offiziellen Score von o3 high. Aider-Leaderboard

    • Es wurde gefragt, ob 82.2 mit dem Wert "Percent correct" der anderen Modelle vergleichbar ist. Das "pure" o3 (high) liegt bei 79,6 %, die Kombination "o3 (high) + gpt-4.1" erreicht mit 82,7 % den Bestwert. Das ältere Gemini 2.5 Pro Preview 05-06 lag bei etwa 76,9 %. Das ist also ein ziemlich großer Sprung. Die Aider-Benchmarks gelten derzeit als die vertrauenswürdigsten Benchmarks.

    • Besonders überraschend ist, dass es deutlich günstiger und schneller ist.

    • Es wurde angemerkt, dass sich die genannten Werte auf das frühere Preview 05-06 beziehen, nicht auf die heute veröffentlichte neue Version.

  • Laut einem Tweet schließt 06-05 die Lücke zwischen 03-25 und 05-06. Zugehöriger Tweet

  • Mich interessiert ein Codevergleich mit Claude 4 Sonnet. Laut dieser Blog-Tabelle ist es gegenüber Claude 4 Sonnet klar schwächer.

    • Tatsächlich beziehen sich die meisten Benchmarks auf Programmierung beziehungsweise Coding, und nur bei SWE-Bench liegt Claude vorne. Es ist schwer zu beurteilen, welcher Benchmark die tatsächliche Arbeit am besten abbildet, aber in der Community hat Aider Polyglot einen guten Ruf.