- Mit der offiziellen Veröffentlichung der Modelle Gemini 2.5 Flash und Pro wurde außerdem eine Preview-Version des günstigsten und schnellsten Modells Flash-Lite vorgestellt
- Flash-Lite ist auf latenzkritische Aufgaben wie Übersetzung und Klassifizierung spezialisiert und bietet geringere Latenz sowie eine höhere Gesamtqualität als 2.0 Flash/Flash-Lite
- Alle 2.5-Modelle unterstützen Funktionen wie multimodale Eingaben, 1M Token Kontextlänge, Tool-Anbindung (Suche, Code-Ausführung usw.) sowie umschaltbaren Thinking-Modus
- Das Portfolio wurde mit Blick auf optimierte Preis-Leistung (Pareto Frontier) entwickelt und ist damit gut für die Verarbeitung von Traffic in großem Umfang geeignet
- Flash-Lite und Flash werden bereits auch für die Suche angepasst und eingesetzt, Entwickler können Preview- oder offizielle Modelle in Google AI Studio und Vertex AI nutzen
Eigenschaften von Flash-Lite
- Als günstigstes und schnellstes Modell kostet es $0.10 pro 1 Million Input-Token und $0.40 pro 1 Million Output-Token
- Die Preis-Leistung ist stark, wodurch es sich besonders für Aufgaben mit hohem Anfragevolumen wie Übersetzung und Klassifizierung eignet
- Gegenüber dem früheren 2.0 Flash-Lite wurde die Gesamtqualität verbessert: Bei Wissenschaft (GPQA) von 64.6% → 66.7%, bei Mathematik (AIME 2025) von 49.8% → 63.1%
- Bei Code-Generierung und -Bearbeitung liegt es mit 34.3% bzw. 27.1% unter High-Performance-Modellen, ist aber eine kosteneffiziente Option
- Die Leistung bei der multimodalen Verarbeitung bleibt mit 72.9% stabil, das Bildverständnis wurde von 51.3% auf 57.5% verbessert
- Wird der Thinking-Modus aktiviert, steigt die Gesamtgenauigkeit; etwa bei HumanEval von 5.1% → 6.9% und bei SWE-bench multi-task von 42.6% → 44.9%
- Auch bei Faktentreue (SimpleQA) und Verständnis langer Kontexte (MRCR) verbessert der Thinking-Modus die Leistung deutlich; insbesondere steigt die Genauigkeit bei langen Kontexten auf Basis von 1M Token von 5.4% auf 16.8% und damit auf mehr als das Dreifache
- Auch die mehrsprachigen Fähigkeiten (MMLU) wurden gesteigert und erreichen 81.1% ohne Thinking sowie 84.5% mit Thinking
1 Kommentare
Hacker-News-Kommentare
Im Google-Post wird es nicht erwähnt, aber es scheint, als sei eine Preiserhöhung für das Gemini-2.5-Flash-Modell enthalten
Bei 2.5 Flash Preview lagen die archivierten Preise bei $0.15 pro 1 Mio. Tokens für Eingabe-Text/Bilder/Videos, $1.00 für Audio und bei der Ausgabe bei $0.60 für non-thinking sowie $3.50 für thinking
In der neuen Preisstruktur gibt es keine Unterscheidung mehr zwischen thinking und non-thinking
Eingabe-Text/Bilder/Videos kosten nun $0.30 pro 1 Mio. Tokens, also doppelt so viel, Audio bleibt bei $1.00, und die Ausgabe kostet $2.50 pro 1 Mio. Tokens — deutlich teurer als früher non-thinking, aber günstiger als thinking
Detaillierte Preisangaben gibt es hier
Im Blogpost gibt es mehr Informationen zur Preisänderung
Weiterführender Link
Es gab Aussagen, dass AI-Technologie bald extrem billig werde, aber aktuell steigen die Preise erst einmal
Als Gemini ursprünglich veröffentlicht wurde, wirkte der Preis übertrieben niedrig und im Vergleich zur Konkurrenz zu günstig; jetzt scheint er endlich realistischer angesetzt zu sein
Ganz beiläufig verdoppelte Preise
Wenn man bedenkt, dass Gemini 2.0 Flash bei $0.10/$0.40 lag, ist die Erhöhung deutlich spürbar
Meinung, dass diese Änderung scharfsinnig bemerkt wurde
Diese Preisänderung ist aus meiner Sicht ziemlich wichtig für Gemini, das im Bereich Audio-to-Audio zum GOAT hätte werden können
Als Gemini Pro eine Zeit lang kostenlos in AI Studio verfügbar war, wurde es meiner Meinung nach von vielen genutzt
Danach wurde die Leistung eher schlechter, und für wichtige Aufgaben bin ich inzwischen wieder bei Claude
Gemini fühlt sich stark wie ein Freund an, der unnötig viel redet
Für Brainstorming nutze ich es aber weiterhin oft und verwende dann verfeinerte, von Gemini erzeugte Prompts in Claude
Wenn ich mir das Aider-Leaderboard anschaue, ist Gemini entgegen meiner eigenen Erfahrung nicht immer überlegen
Ich nutze nur direkt die Aider API und habe keine Erfahrung mit AI Studio
Claude liefert auch bei schwachen Prompts ordentliche Ergebnisse, besonders wenn die Richtung noch unklar ist
Wenn ich selbst eine klare Richtung vorgebe, ist Gemini 2.5 Pro (mit aktiviertem Thinking) besser, und der Code läuft stabiler
Bei o4-mini und o3 wirkt das Denken etwas "smarter", aber der Code ist instabiler (Gemini ist da stabiler)
Je komplexer es wird, desto schwächer scheint Claude zu werden; für mich liegen Gemini und o3 daher höher
Seit dem Release von o3-mini gab es für mich keinen Grund mehr, zu Claude zurückzukehren
Ich hatte eine ähnliche Erfahrung
Anfangs schien es selbst komplexe Probleme gut zu lösen, aber bei einfachen Aufgaben ist die Abstimmung schwierig
Die Antworten sind zu ausschweifend, und da UX für mich am wichtigsten ist, bevorzuge ich aktuell die UX von Claude Code
Bei mir ist es genauso: Obwohl ich sogar ein Gem mit einem ausführlichen Prompt gebaut habe, damit es kurz antwortet, bleibt es wortreich und weitet den Rahmen der Frage unnötig aus
Ich habe keine internen Informationen, aber es fühlt sich so an, als wäre das Modell quantisiert worden
Es zeigen sich Muster wie das unendliche Wiederholen eines einzelnen Zeichens — Dinge, die ich sonst nur bei quantisierten Modellen gesehen habe
Ich wünschte, man würde auf die frühere Preview-Version zurückrollen
Die Preview war ausgewogen und hat tatsächlich nützliche Gegenargumente geliefert, während die GA-Version einen übertrieben positiven Ton angenommen hat
Ich bin von Gemini sehr beeindruckt und habe aufgehört, OpenAI zu nutzen
Gelegentlich teste ich über OpenRouter alle drei Modelle, aber derzeit nutze ich zu über 90 % nur Gemini
Verglichen mit dem letzten Jahr, als es zu 90 % ChatGPT war, ist das eine ziemlich große Veränderung
Ich stehe Google eher kritisch gegenüber, aber diesmal finde ich die Modelle wirklich hervorragend
Besonders das enorm große context window ist ein riesiger Vorteil
Bei mir genauso: Dieses Mal habe ich mein Claude-Abonnement gekündigt und denke, dass Gemini sehr schnell aufholt
Durch diese Ankündigung wird Flash Lite meiner Meinung nach von "nutzlos" zu einem "brauchbaren Werkzeug" aufgewertet
Flash Lite ist günstig und vor allem durch seine Geschwindigkeit stark — fast immer unter 1 Sekunde Antwortzeit (Minimum 200 ms, Durchschnitt 400 ms)
In unserem Service Brokk(brokk.ai) nutzen wir derzeit Flash 2.0 (nicht Lite) für Quick Edits, und wir prüfen nun die Einführung von 2.5 Lite
Ich frage mich aber, wofür ein Modell unterhalb von Flash 2.5 sinnvoll ist, wenn dessen Thinking zu langsam ist
Schnelle Antworten sind wichtig, aber mit aktiviertem Thinking wird es langsamer und damit etwas unklar in der Positionierung
Ich würde gern wissen, wie Leute Gemini außerhalb des Codings nutzen und warum sie es gewählt haben
Entwerft ihr beim Bauen von Apps GenAI-Backends so, dass sie austauschbar sind, oder verteilt ihr Last über mehrere Anbieter wegen Preis oder Zuverlässigkeit? Und was würde sich ändern, falls für LLMs irgendwann ein Spotmarkt entstünde?
Meiner Erfahrung nach sticht Gemini 2.5 Pro bei nicht-programmierbezogenen Aufgaben wie Übersetzung oder Zusammenfassungen (mit Canva) hervor
Möglich wird das durch das riesige Kontextfenster und die hohen Nutzungslimits
Besonders bei der Erstellung von Research-Berichten halte ich Gemini für besser als ChatGPT
Vielleicht weil Google bei der Suche so stark ist, basieren die Berichte auf mehreren Quellen und sind genauer
Auch den Schreibstil bevorzuge ich, und der Export nach Google Docs ist praktisch
Ein großer Nachteil ist allerdings, dass die UI im Vergleich zur Konkurrenz deutlich schwächer ist und wichtige Funktionen wie Custom instruction, Projects und Temporary Chat fehlen oder nur unzureichend vorhanden sind
Es ist nützlich, viele NDA-Dokumente auf einmal hineinzugeben und innerhalb weniger Sekunden nur die relevanten Inhalte herausziehen zu lassen
Wegen des großen Kontextfensters und der starken Fähigkeit, exakt die benötigten Informationen zu extrahieren, ist es für solche Aufgaben ideal
Gemini Flash 2.0 ist extrem günstig und ein starkes Modell für Workloads auf Enterprise-Niveau
Es ist nicht State of the Art in Sachen Intelligenz, aber beim Entwickeln bin ich mit dem niedrigen Preis, der hohen Geschwindigkeit und der zuverlässigen strukturierten Ausgabe sehr zufrieden
Ich plane, ein Upgrade auf 2.5 Lite zu testen
Ich nutze lexikon.ai häufig und setze Gemini besonders oft für die Verarbeitung großer Bildmengen ein
Die Preise der Google Vision API sind im Vergleich zu anderen großen Anbietern (OpenAI, Anthropic) deutlich günstiger, was sehr attraktiv ist
Ich nutze Gemini 2.5 Flash (mit non-thinking-Option) als Denkpartner
Es hilft mir, meine Gedanken zu ordnen, und liefert automatisch Inputs, auf die ich selbst nicht gekommen wäre
Auch zur Selbstreflexion finde ich es nützlich: Ich werfe meine Gedanken oder Sorgen hinein und orientiere mich an der Antwort der AI
Ich frage mich, ob es derzeit Leute gibt, die keinen Zugriff auf die 2.5-pro-API haben
Ich erhalte den Fehler: "projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro konnte nicht gefunden werden oder du hast keinen Zugriff darauf"
Dazu erscheint der Hinweis, zu prüfen, ob eine gültige Modellversion verwendet wird
Ich betreibe einen Service für umfangreiche LLM-Inferenz/Datenverarbeitung und mache viel Kosten- und Performance-Profiling für verschiedene Open-Weight-Modelle
Was an der LLM-Preisgestaltung weiterhin seltsam ist: Anbieter rechnen immer noch linear nach Tokenverbrauch ab, obwohl die realen Systemkosten mit wachsender Sequenzlänge quadratisch steigen
Da sich aktuelle Modellarchitekturen, Inferenzalgorithmen und Hardware weitgehend angenähert haben, beziehen Anbieter bei der Preisfestlegung offenbar stark historische Statistiken über Anfrage-Muster ihrer Kunden ein
Dass mit zunehmender Kenntnis der tatsächlichen Nutzungsdaten dann Preissteigerungen auftauchen, finde ich letztlich nicht überraschend
Im Vergleich zu 2.0 Flash Lite ist der Preis für Audioverarbeitung bei 2.5 Flash Lite um das 6,33-Fache gestiegen
Audio-Eingabe kostet bei 2.5 Flash Lite $0.5 pro 1 Mio. Tokens, bei 2.0 waren es $0.075
Ich frage mich, warum der Preis für Audio-Tokens so drastisch gestiegen ist
Nimmt man ein Verhältnis von Eingabe- zu Ausgabe-Tokens von 3:1 an, ist der blended price gegenüber früher um das 3,24-Fache gestiegen und liegt im Vergleich zu 2.0 Flash fast beim 5-Fachen
Deshalb dürfte 2.0 Flash für viele Anwendungsfälle — besonders außerhalb des Codings — weiterhin konkurrenzfähig bleiben
Selbst wenn die Leistung etwas niedriger ist, kann es in der Praxis effektiver sein, Prompts auf mehrere Durchläufe aufzuteilen
Schade, ich hatte erwartet, dass 2.5 Flash diesmal die eindeutig überlegene Wahl sein würde
(Relevante Preisdaten hier)