Google veröffentlicht Gemini 2.5 Flash/Pro offiziell und stellt das Modell `Flash-Lite` vor

(blog.google)

1 Punkte von GN⁺ 2025-06-18 | 1 Kommentare | Auf WhatsApp teilen

Mit der offiziellen Veröffentlichung der Modelle Gemini 2.5 Flash und Pro wurde außerdem eine Preview-Version des günstigsten und schnellsten Modells Flash-Lite vorgestellt
Flash-Lite ist auf latenzkritische Aufgaben wie Übersetzung und Klassifizierung spezialisiert und bietet geringere Latenz sowie eine höhere Gesamtqualität als 2.0 Flash/Flash-Lite
Alle 2.5-Modelle unterstützen Funktionen wie multimodale Eingaben, 1M Token Kontextlänge, Tool-Anbindung (Suche, Code-Ausführung usw.) sowie umschaltbaren Thinking-Modus
Das Portfolio wurde mit Blick auf optimierte Preis-Leistung (Pareto Frontier) entwickelt und ist damit gut für die Verarbeitung von Traffic in großem Umfang geeignet
Flash-Lite und Flash werden bereits auch für die Suche angepasst und eingesetzt, Entwickler können Preview- oder offizielle Modelle in Google AI Studio und Vertex AI nutzen

Eigenschaften von Flash-Lite

Als günstigstes und schnellstes Modell kostet es $0.10 pro 1 Million Input-Token und $0.40 pro 1 Million Output-Token
Die Preis-Leistung ist stark, wodurch es sich besonders für Aufgaben mit hohem Anfragevolumen wie Übersetzung und Klassifizierung eignet
Gegenüber dem früheren 2.0 Flash-Lite wurde die Gesamtqualität verbessert: Bei Wissenschaft (GPQA) von 64.6% → 66.7%, bei Mathematik (AIME 2025) von 49.8% → 63.1%
Bei Code-Generierung und -Bearbeitung liegt es mit 34.3% bzw. 27.1% unter High-Performance-Modellen, ist aber eine kosteneffiziente Option
Die Leistung bei der multimodalen Verarbeitung bleibt mit 72.9% stabil, das Bildverständnis wurde von 51.3% auf 57.5% verbessert
Wird der Thinking-Modus aktiviert, steigt die Gesamtgenauigkeit; etwa bei HumanEval von 5.1% → 6.9% und bei SWE-bench multi-task von 42.6% → 44.9%
Auch bei Faktentreue (SimpleQA) und Verständnis langer Kontexte (MRCR) verbessert der Thinking-Modus die Leistung deutlich; insbesondere steigt die Genauigkeit bei langen Kontexten auf Basis von 1M Token von 5.4% auf 16.8% und damit auf mehr als das Dreifache
Auch die mehrsprachigen Fähigkeiten (MMLU) wurden gesteigert und erreichen 81.1% ohne Thinking sowie 84.5% mit Thinking

Technische Details zur Gemini-2.5-Modellfamilie finden sich im Gemini technical report

1 Kommentare

GN⁺ 2025-06-18

Hacker-News-Kommentare

Im Google-Post wird es nicht erwähnt, aber es scheint, als sei eine Preiserhöhung für das Gemini-2.5-Flash-Modell enthalten
Bei 2.5 Flash Preview lagen die archivierten Preise bei $0.15 pro 1 Mio. Tokens für Eingabe-Text/Bilder/Videos, $1.00 für Audio und bei der Ausgabe bei $0.60 für non-thinking sowie $3.50 für thinking
In der neuen Preisstruktur gibt es keine Unterscheidung mehr zwischen thinking und non-thinking
Eingabe-Text/Bilder/Videos kosten nun $0.30 pro 1 Mio. Tokens, also doppelt so viel, Audio bleibt bei $1.00, und die Ausgabe kostet $2.50 pro 1 Mio. Tokens — deutlich teurer als früher non-thinking, aber günstiger als thinking
Detaillierte Preisangaben gibt es hier
- Im Blogpost gibt es mehr Informationen zur Preisänderung
  Weiterführender Link
- Es gab Aussagen, dass AI-Technologie bald extrem billig werde, aber aktuell steigen die Preise erst einmal
- Als Gemini ursprünglich veröffentlicht wurde, wirkte der Preis übertrieben niedrig und im Vergleich zur Konkurrenz zu günstig; jetzt scheint er endlich realistischer angesetzt zu sein
- Ganz beiläufig verdoppelte Preise
  Wenn man bedenkt, dass Gemini 2.0 Flash bei $0.10/$0.40 lag, ist die Erhöhung deutlich spürbar
- Meinung, dass diese Änderung scharfsinnig bemerkt wurde
  Diese Preisänderung ist aus meiner Sicht ziemlich wichtig für Gemini, das im Bereich Audio-to-Audio zum GOAT hätte werden können
Als Gemini Pro eine Zeit lang kostenlos in AI Studio verfügbar war, wurde es meiner Meinung nach von vielen genutzt
Danach wurde die Leistung eher schlechter, und für wichtige Aufgaben bin ich inzwischen wieder bei Claude
Gemini fühlt sich stark wie ein Freund an, der unnötig viel redet
Für Brainstorming nutze ich es aber weiterhin oft und verwende dann verfeinerte, von Gemini erzeugte Prompts in Claude
- Wenn ich mir das Aider-Leaderboard anschaue, ist Gemini entgegen meiner eigenen Erfahrung nicht immer überlegen
  Ich nutze nur direkt die Aider API und habe keine Erfahrung mit AI Studio
  Claude liefert auch bei schwachen Prompts ordentliche Ergebnisse, besonders wenn die Richtung noch unklar ist
  Wenn ich selbst eine klare Richtung vorgebe, ist Gemini 2.5 Pro (mit aktiviertem Thinking) besser, und der Code läuft stabiler
  Bei o4-mini und o3 wirkt das Denken etwas "smarter", aber der Code ist instabiler (Gemini ist da stabiler)
  Je komplexer es wird, desto schwächer scheint Claude zu werden; für mich liegen Gemini und o3 daher höher
  Seit dem Release von o3-mini gab es für mich keinen Grund mehr, zu Claude zurückzukehren
- Ich hatte eine ähnliche Erfahrung
  Anfangs schien es selbst komplexe Probleme gut zu lösen, aber bei einfachen Aufgaben ist die Abstimmung schwierig
  Die Antworten sind zu ausschweifend, und da UX für mich am wichtigsten ist, bevorzuge ich aktuell die UX von Claude Code
- Bei mir ist es genauso: Obwohl ich sogar ein Gem mit einem ausführlichen Prompt gebaut habe, damit es kurz antwortet, bleibt es wortreich und weitet den Rahmen der Frage unnötig aus
- Ich habe keine internen Informationen, aber es fühlt sich so an, als wäre das Modell quantisiert worden
  Es zeigen sich Muster wie das unendliche Wiederholen eines einzelnen Zeichens — Dinge, die ich sonst nur bei quantisierten Modellen gesehen habe
- Ich wünschte, man würde auf die frühere Preview-Version zurückrollen
  Die Preview war ausgewogen und hat tatsächlich nützliche Gegenargumente geliefert, während die GA-Version einen übertrieben positiven Ton angenommen hat
Ich bin von Gemini sehr beeindruckt und habe aufgehört, OpenAI zu nutzen
Gelegentlich teste ich über OpenRouter alle drei Modelle, aber derzeit nutze ich zu über 90 % nur Gemini
Verglichen mit dem letzten Jahr, als es zu 90 % ChatGPT war, ist das eine ziemlich große Veränderung
- Ich stehe Google eher kritisch gegenüber, aber diesmal finde ich die Modelle wirklich hervorragend
  Besonders das enorm große context window ist ein riesiger Vorteil
- Bei mir genauso: Dieses Mal habe ich mein Claude-Abonnement gekündigt und denke, dass Gemini sehr schnell aufholt
Durch diese Ankündigung wird Flash Lite meiner Meinung nach von "nutzlos" zu einem "brauchbaren Werkzeug" aufgewertet
Flash Lite ist günstig und vor allem durch seine Geschwindigkeit stark — fast immer unter 1 Sekunde Antwortzeit (Minimum 200 ms, Durchschnitt 400 ms)
In unserem Service Brokk(brokk.ai) nutzen wir derzeit Flash 2.0 (nicht Lite) für Quick Edits, und wir prüfen nun die Einführung von 2.5 Lite
Ich frage mich aber, wofür ein Modell unterhalb von Flash 2.5 sinnvoll ist, wenn dessen Thinking zu langsam ist
Schnelle Antworten sind wichtig, aber mit aktiviertem Thinking wird es langsamer und damit etwas unklar in der Positionierung
- Für mich gilt: Solange schnell genug gedacht wird, ist es mir egal, wie viel Thinking intern verwendet wird
Ich würde gern wissen, wie Leute Gemini außerhalb des Codings nutzen und warum sie es gewählt haben
Entwerft ihr beim Bauen von Apps GenAI-Backends so, dass sie austauschbar sind, oder verteilt ihr Last über mehrere Anbieter wegen Preis oder Zuverlässigkeit? Und was würde sich ändern, falls für LLMs irgendwann ein Spotmarkt entstünde?
- Meiner Erfahrung nach sticht Gemini 2.5 Pro bei nicht-programmierbezogenen Aufgaben wie Übersetzung oder Zusammenfassungen (mit Canva) hervor
  Möglich wird das durch das riesige Kontextfenster und die hohen Nutzungslimits
  Besonders bei der Erstellung von Research-Berichten halte ich Gemini für besser als ChatGPT
  Vielleicht weil Google bei der Suche so stark ist, basieren die Berichte auf mehreren Quellen und sind genauer
  Auch den Schreibstil bevorzuge ich, und der Export nach Google Docs ist praktisch
  Ein großer Nachteil ist allerdings, dass die UI im Vergleich zur Konkurrenz deutlich schwächer ist und wichtige Funktionen wie Custom instruction, Projects und Temporary Chat fehlen oder nur unzureichend vorhanden sind
- Es ist nützlich, viele NDA-Dokumente auf einmal hineinzugeben und innerhalb weniger Sekunden nur die relevanten Inhalte herausziehen zu lassen
  Wegen des großen Kontextfensters und der starken Fähigkeit, exakt die benötigten Informationen zu extrahieren, ist es für solche Aufgaben ideal
- Gemini Flash 2.0 ist extrem günstig und ein starkes Modell für Workloads auf Enterprise-Niveau
  Es ist nicht State of the Art in Sachen Intelligenz, aber beim Entwickeln bin ich mit dem niedrigen Preis, der hohen Geschwindigkeit und der zuverlässigen strukturierten Ausgabe sehr zufrieden
  Ich plane, ein Upgrade auf 2.5 Lite zu testen
- Ich nutze lexikon.ai häufig und setze Gemini besonders oft für die Verarbeitung großer Bildmengen ein
  Die Preise der Google Vision API sind im Vergleich zu anderen großen Anbietern (OpenAI, Anthropic) deutlich günstiger, was sehr attraktiv ist
- Ich nutze Gemini 2.5 Flash (mit non-thinking-Option) als Denkpartner
  Es hilft mir, meine Gedanken zu ordnen, und liefert automatisch Inputs, auf die ich selbst nicht gekommen wäre
  Auch zur Selbstreflexion finde ich es nützlich: Ich werfe meine Gedanken oder Sorgen hinein und orientiere mich an der Antwort der AI
Ich frage mich, ob es derzeit Leute gibt, die keinen Zugriff auf die 2.5-pro-API haben
Ich erhalte den Fehler: "projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro konnte nicht gefunden werden oder du hast keinen Zugriff darauf"
Dazu erscheint der Hinweis, zu prüfen, ob eine gültige Modellversion verwendet wird
Ich betreibe einen Service für umfangreiche LLM-Inferenz/Datenverarbeitung und mache viel Kosten- und Performance-Profiling für verschiedene Open-Weight-Modelle
Was an der LLM-Preisgestaltung weiterhin seltsam ist: Anbieter rechnen immer noch linear nach Tokenverbrauch ab, obwohl die realen Systemkosten mit wachsender Sequenzlänge quadratisch steigen
Da sich aktuelle Modellarchitekturen, Inferenzalgorithmen und Hardware weitgehend angenähert haben, beziehen Anbieter bei der Preisfestlegung offenbar stark historische Statistiken über Anfrage-Muster ihrer Kunden ein
Dass mit zunehmender Kenntnis der tatsächlichen Nutzungsdaten dann Preissteigerungen auftauchen, finde ich letztlich nicht überraschend
Im Vergleich zu 2.0 Flash Lite ist der Preis für Audioverarbeitung bei 2.5 Flash Lite um das 6,33-Fache gestiegen
Audio-Eingabe kostet bei 2.5 Flash Lite $0.5 pro 1 Mio. Tokens, bei 2.0 waren es $0.075
Ich frage mich, warum der Preis für Audio-Tokens so drastisch gestiegen ist
Nimmt man ein Verhältnis von Eingabe- zu Ausgabe-Tokens von 3:1 an, ist der blended price gegenüber früher um das 3,24-Fache gestiegen und liegt im Vergleich zu 2.0 Flash fast beim 5-Fachen
Deshalb dürfte 2.0 Flash für viele Anwendungsfälle — besonders außerhalb des Codings — weiterhin konkurrenzfähig bleiben
Selbst wenn die Leistung etwas niedriger ist, kann es in der Praxis effektiver sein, Prompts auf mehrere Durchläufe aufzuteilen
Schade, ich hatte erwartet, dass 2.5 Flash diesmal die eindeutig überlegene Wahl sein würde
(Relevante Preisdaten hier)

Google veröffentlicht Gemini 2.5 Flash/Pro offiziell und stellt das Modell `Flash-Lite` vor

Eigenschaften von Flash-Lite

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare