Verbessertes Gemini 2.5 Flash und Flash-Lite vorgestellt

(developers.googleblog.com)

1 Punkte von GN⁺ 2025-09-27 | 1 Kommentare | Auf WhatsApp teilen

Google hat neue Preview-Versionen von Gemini 2.5 Flash und 2.5 Flash-Lite vorgestellt; im Fokus stehen bessere Qualität und höhere Effizienz
Flash-Lite ist mit besserem Verständnis von Anweisungen, weniger weitschweifigen Antworten sowie verbesserter Multimodalität und Übersetzungsleistung optimal für schnelle und kostengünstige Umgebungen geeignet
Flash bietet stärkere Tool-Nutzung und bessere Token-Effizienz, wodurch die Leistung bei komplexen agentischen Aufgaben deutlich steigt
In realen Tests stieg der SWE-Bench-Verified-Wert um 5 %, in internen Benchmarks verbesserte sich die Leistung bei langfristigen Aufgaben um 15 %
Beide Modelle unterstützen den Alias -latest, sodass sich die neuesten Funktionen ohne Codeänderungen nutzen lassen; wer Stabilität bevorzugt, kann weiterhin die bestehenden 2.5-Modelle verwenden

Überblick über Gemini 2.5 Flash und Flash-Lite

Die neuesten Versionen von Gemini 2.5 Flash und Flash-Lite wurden in Google AI Studio und Vertex AI veröffentlicht. Ziel dieses Releases ist es, kontinuierlich bessere Modellqualität und höhere Effizienz bereitzustellen
Das neue Flash-Lite und Flash zeigen gegenüber den bisherigen Modellen insgesamt deutlich verbesserte Leistung bei Qualität, Geschwindigkeit und Kosten
Bei Flash-Lite werden 50 % der Ausgabetokens eingespart, bei Flash 24 %, was niedrigere Betriebskosten und schnellere Verarbeitung ermöglicht

Aktualisiertes Gemini 2.5 Flash-Lite

Verbesserte Befolgung von Anweisungen: Das Verständnis und die Ausführung komplexer Anweisungen oder System-Prompts wurden deutlich verbessert
Mehr Knappheit: Kürzere und leichter verständliche Antworten senken die Token-Kosten und reduzieren die Latenz in Umgebungen mit hohem Traffic
Stärkere Multimodalität und bessere Übersetzungsqualität: Die Zuverlässigkeit bei Audiotranskription, Bilderkennung und Übersetzungen wurde insgesamt erhöht
Die Preview-Version von Flash-Lite kann direkt unter dem Modellnamen gemini-2.5-flash-lite-preview-09-2025 getestet werden

Aktualisiertes Gemini 2.5 Flash

Stärkere Tool-Nutzung: Die agentische Einsetzbarkeit in komplexen Multi-Step-Szenarien wurde deutlich verbessert; auf SWE-Bench Verified wurde gegenüber der vorherigen Version ein um 5 Prozentpunkte höherer Wert erreicht (48,9 % → 54 %)
Verbesserte Kosteneffizienz: Höhere Ausgabequalität bei geringerem Token-Verbrauch, mit positiven Effekten auf Latenz und Infrastrukturkosten
Auch das Feedback von Primer-Nutzern fällt positiv aus
- Yichao „Peak“ Ji, Mitgründer und Chief Scientist von Manus, sagte: „Das neue Gemini-2.5-Flash-Modell vereint beeindruckende Geschwindigkeit und Intelligenz. Bei agentischen Aufgaben mit langfristigen Zielen hat sich die Leistung um 15 % verbessert, wodurch sich dank hoher Kosteneffizienz noch besser skalieren lässt.“
Die Preview-Version von Gemini 2.5 Flash ist unter dem Modellnamen gemini-2.5-flash-preview-09-2025 verfügbar

Mit Gemini loslegen

Durch die Veröffentlichung von Preview-Modellen im vergangenen Jahr konnten Entwickler neue Funktionen früh ausprobieren und Feedback geben
Die heute vorgestellten Preview-Versionen werden nicht offiziell in neue stabile Versionen überführt, sondern dienen als Grundlage zur Qualitätssteigerung kommender regulärer Releases

Anstelle langer Modellnamen wurde der Alias -latest hinzugefügt, damit sich immer problemlos das neueste Modell verwenden lässt. Dieser Alias verweist automatisch auf die aktuellste Version und ermöglicht es, neue Funktionen ohne Codeänderungen zu testen
- gemini-flash-latest
- gemini-flash-lite-latest
Falls eine bestimmte Version aktualisiert oder eingestellt wird, erfolgt mindestens zwei Wochen vorher eine Benachrichtigung per E-Mail. Der Alias ist lediglich eine Referenz; Preise, Funktionen und Limits können sich je nach Release unterscheiden
Wenn langfristige Stabilität erforderlich ist, wird die weitere Nutzung der bestehenden Modellnamen gemini-2.5-flash und gemini-2.5-flash-lite empfohlen

Bedeutung

Dieses Release ist kein Aufstieg in eine offiziell stabile Version, sondern ein Preview-Update, das Experimente und Nutzerfeedback für künftige stabile Modelle ermöglichen soll
Google verfolgt mit Gemini weiterhin ein Gleichgewicht aus Geschwindigkeit, Intelligenz und Kosteneffizienz und verbessert das System fortlaufend, damit Entwickler bessere KI-Anwendungen bauen können

1 Kommentare

GN⁺ 2025-09-27

Hacker-News-Kommentare

Das trifft die Probleme ziemlich gut, die mir bei der Nutzung von Gemini zuletzt aufgefallen sind. Das Modell selbst ist wirklich hervorragend, aber in der Praxis werden Unterhaltungen immer wieder mitten im Verlauf abgeschnitten. Es scheint weder am Token-Limit noch an Filtern zu liegen, sondern eher ein Bug zu sein, bei dem das Modell fälschlich ein Signal sendet, dass die Antwort abgeschlossen sei. Das steht seit Monaten bereits als P2-Issue auf GitHub und in Entwicklerforen. Vergleicht man vollständige Gemini-Antworten mit Claude oder GPT-4, ist die Qualität eigentlich gar nicht schlecht. Aber Zuverlässigkeit ist entscheidend. Auch wenn es nicht perfekt ist, lässt sich ein Modell, das wenigstens immer bis zum Ende antwortet, deutlich angenehmer nutzen. Google hat zwar die technische Stärke, aber solange solche grundlegenden Probleme im Gesprächsfluss nicht behoben werden, wirken selbst Top-Benchmarks im Vergleich zur Konkurrenz einfach kaputt. Siehe dazu Issue #707 und die Diskussion im Entwicklerforum
- Ein weiterer Nachteil von Gemini: Tool Calling und die Anforderung von JSON-Ausgabe lassen sich nicht gleichzeitig sauber handhaben. Wenn man application/json anfordert, kann das Tool nicht genutzt werden, und wenn man beides will, muss man entweder hoffen, dass das JSON trotzdem korrekt herauskommt, was oft scheitert, oder im ersten Request das Tool verwenden und im zweiten Request formatieren. Umständlich, aber als Workaround immerhin recht simpel
- Das ist kein Problem nur von Gemini, auch mit ChatGPT habe ich in Sachen Zuverlässigkeit viele schlechte Erfahrungen gemacht
- Ich verstehe solche Kleinigkeiten nicht, ebenso wenig wie die Tatsache, dass in AI Studio nicht einmal das Scrollen richtig funktioniert. Wie kann ein so beeindruckendes Tool bei so grundlegenden Funktionen derart schwach sein?
- Ich empfinde das ähnlich. Gemini 2.5 Pro passt wirklich gut zu Software-Architektur. Aber dass man es ständig anstupsen muss, ist ermüdend. Sonnet liefert ebenfalls mehr als ordentlich ab
- ChatGPT hat ebenfalls viele Zuverlässigkeitsprobleme
Ich habe Unterstützung für dieses Modell im llm-gemini-Plugin ergänzt. Es lässt sich per uvx ohne separate Installation ausführen. Beispiel:

export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

Die Release Notes gibt es hier. Zur Pelikan-Diskussion siehe diesen Beitrag

Ich frage mich, ob das SVG-Beispielbild mit dem Pelikan auf dem Fahrrad im Trainingsdatensatz gelandet ist. Unter den Ingenieuren in diesem Bereich gibt es sicher viele, die regelmäßig Hacker News lesen
Ich frage mich am Ende nur, wer gewinnt. Die Frösche? Die Enten? Oder der Pelikan?
Wenn 2.5 ein verbessertes Modell ist, warum dann nicht Version 2.6? Man muss altes 2.5 und neues 2.5 auseinanderhalten, das ist verwirrend. Das erinnert mich an Apples „the new iPad“ ohne Nummerierung, was ähnlich umständlich war
- Deshalb wurde die zweite Version von Sonnet v3.5 oft als v3.6 bezeichnet, und Anthropic hat das Nachfolgemodell dann gleich v3.7 genannt
- Modelle werden meist nach Veröffentlichungsmonat und -jahr benannt. Das neueste Gemini 2.5 Flash heißt zum Beispiel "google/gemini-2.5-flash-preview-09-2025". Referenz
- 2.5 ist kein Versionsname, sondern ein Hinweis auf die Architektur-Generation. Ein Beispiel wäre der Mazda 3: kein „Mazda 4“, sondern eher ein neues Trim-Level oder ein kleines Refresh des bestehenden Modells. Ich stimme zu, dass SemVer sinnvoller wäre
- Vielleicht soll damit einfach nur die Bedeutung eines Bugfixes signalisiert werden
- So wird eher unklar, was besser ist: 2.6 Flash oder 2.5 Pro
Google scheint unter den großen Foundation-Model-Anbietern wirklich stark auf Latenz, TPS und Kosten fokussiert zu sein. Anthropic und OpenAI liegen bei der Modellintelligenz vorn, aber unterhalb einer gewissen Leistungsschwelle sind langsame Antworten in kollaborativen Tools einfach lästig. Ein etwas weniger kluges, dafür aber schnelles Modell wie Gemini fühlt sich im Workflow oft angenehmer an. Allerdings wirkt es im Vergleich zu Claude oder GPT-5 manchmal auch komplett stumpf
- Ich bezweifle persönlich, dass diese dichotome Sicht wirklich zutrifft. Gemini scheint mir bei der „Intelligenz“ nicht so weit zurückzuliegen, und ich denke, die Lücke wird sich in kommenden Modellzyklen weiter schließen. Außerdem setzt Google nicht nur auf Latenz/TPS/Kosten, sondern auch darauf, eigene Modelle schnell in viele Produkte jenseits eines simplen Chatbots zu integrieren. Neben Google Workspace und Google Search wird zum Beispiel auch in neuen Bereichen wie jules, labs.google/flow und dem Finanz-Dashboard aktiv experimentiert. Dass Gemini irgendwann auch in YouTube auftaucht, scheint nur eine Frage der Zeit zu sein
- Ich nutze Gemini (2.5-pro) zuletzt weniger. Früher war ich von den Deep-Research-Fähigkeiten und den verlässlichen Zitaten beeindruckt. In den letzten Wochen ist es jedoch streitlustiger geworden und erkennt Halluzinationen bei Quellen schlechter. Als Beispiel fragte ich nach dem Zugriff auf die Secrets-Map in Github Actions, und statt einer korrekten Antwort kam ein falscher Workflow-Test. Selbst nach Widerspruch kam nur weiteres Geschwurbel. ChatGPT dagegen beantwortete das Problem problemlos. Siehe dazu: erstens, zweitens
- Für mich ist der Wettbewerb bei Latenz/TPS/Kosten im Wesentlichen ein Zweikampf zwischen grok und gemini flash. Bei Bild-zu-Text-Aufgaben kommt da nichts anderes mit. OpenAI oder Anthropic scheinen daran kaum Interesse zu haben
- Vor zehn Jahren hieß es noch: „Setz die Person vor der Heirat an ein langsames Internet.“ Heute sind wir bei: „Setz die Person vor der Heirat vor ein langsames AI-Modell“ ;-)
- Dem kann ich schwer zustimmen. Gemini ist nicht bloß beim Preis-Leistungs-Verhältnis stark, sondern aus Sicht normaler Nutzer das beste „Alltagsmodell“. Besonders bei agentischen Aufgaben wie Coding liegt es klar hinter Claude oder GPT-5 zurück, aber bei langen Unterhaltungen und dem guten Behalten früherer Kontexte ist Gemini für mich das Beste. Wenn man beim Debugging mehrere Modelle parallel nutzt, ist Gemini oft das einzige, das entscheidende Punkte aus früheren Nachrichten aufgreift und auch passenden Beispielcode liefert. Auch bei Sprachunterstützung für weniger verbreitete Sprachen, OCR und Bilderkennung ist es überragend. Google ist im Marketing und bei AI-UX derzeit schwach, könnte aber mit Verbesserungen noch deutlich wachsen. Ich selbst nutze alle drei Modelle fast täglich parallel
Non-AI-Zusammenfassung: Beide Modelle sind beim AI analysis score intelligenter geworden, und die End-to-End-Antwortzeit wurde kürzer. Die Effizienz der Output-Token wurde um 24 % bis 50 % verbessert, was hilft, Kosten zu senken. Die wichtigsten Verbesserungen bei Gemini 2.5 Flash-Lite sind besseres Verständnis von Anweisungen, weniger unnötige Weitschweifigkeit und stärkere multimodale sowie Übersetzungsfähigkeiten. Gemini 2.5 Flash zeichnet sich durch leistungsfähigere agentische Tool-Nutzung und tokeneffizientes Reasoning aus. Die Modell-Strings sind gemini-2.5-flash-lite-preview-09-2025 und gemini-2.5-flash-preview-09-2025
- So etwas wie eine „Non-AI summary“ könnte künftig ein Trend werden. Allein zu wissen, dass ein Mensch es selbst zusammengefasst hat, macht das Lesen angenehmer
- Den Begriff „Non-AI Summary“ übernehme ich mir
- Ich frage mich, was genau „output token efficiency“ bedeutet. Gemini Flash wird nach Input- und Output-Token abgerechnet, also müssten bei gleichem Output auch die Kosten gleich sein. Ohne Änderungen am Tokenizer oder an internen Verfahren ist schwer nachvollziehbar, wie dadurch Kosten sinken sollen
- 2.5 Flash hat AI für mich zum ersten Mal wirklich nützlich gemacht. Ich war eigentlich der größte AI-Hasser überhaupt, aber inzwischen greife ich vor Google Search eher zur Gemini-App. Sie ist präziser, werbefrei, und die gelieferten Informationen stimmen meistens. Es fühlt sich an, als hätte ich das exakte Wissen des Internets direkt in der Hand. Ich kann mich allein in der Gemini-App in Gesprächen über Themen wie die Aussaattemperatur von Grünkohl verlieren. Das ist konzentrierter als all die Blogs, Bots und SEO-Spam da draußen. Offen bleibt nur, wie lange Google das so aufrechterhalten wird und wie stark es das eigene Geschäftsmodell kannibalisiert
- Insgesamt wirkt es in vielerlei Hinsicht wie eine inkrementelle Verbesserung gegenüber der bisherigen Version
Ein kleiner Versionsnummern-Nörgelpunkt: Es wäre intuitiver, bei jeder Verbesserung die Nummer zu erhöhen. So wie jetzt stiftet jede Veröffentlichung Verwirrung
- Ich habe dieselbe Beschwerde. Anthropic hat etwas Ähnliches gemacht, woraufhin die Debatte über „Nerfs“ groß wurde. Wir kaufen Token paketeweise, sie verfallen schnell, und zugleich ist oft unklar, wie stark das tatsächliche Modell überhaupt aktualisiert wurde. Selbst wenn etwas nur 1 % besser oder schlechter wird, sollte das offengelegt werden. Grundsätzlich sollten AI-Unternehmen Transparenz und Zugänglichkeit besser wahren. Siehe den Claude-Vorfall
- Das ist kein kleiner Nörgelpunkt, sondern ein ernstes Problem. Mit so einer Politik wird Versionsnummerierung an sich bedeutungslos
- Vermutlich ist das als Ersatz für das bestehende 2.5-Flash-Modell gedacht. Das erinnert auch daran, wie OpenAI das 4-o-Modell still aktualisiert und nach den früheren Glazing-Problemen wieder zurückgerollt hat
Wir brauchen ein neues sinnvolles Versionsschema nach Art von SemVer für Modelle. Es muss klar zwischen kleinen Optimierungen und vollständigem Retraining bzw. Architekturänderungen unterschieden werden können
Gemini 2.5 Flash ist zuletzt das LLM, das ich am häufigsten benutze. Besonders bei Bildeingaben und strukturierten Outputs war es für mich besser als OpenAI oder Anthropic
- Gemini 2.5 Flash schlägt in meinem Arbeitsbereich ChatGPT 5 deutlich. Dass es so unbeliebt ist, überrascht mich
- Ich konnte nicht prüfen, ob sich der Preis geändert hat
Bin ich der Einzige, der ein anderes Gemini benutzt? In der Firma nutzen wir Google Workspace, daher ist Gemini standardmäßig integriert. Aber im Vergleich zu anderen Modellen sind die Ergebnisse geradezu schrecklich. Alle loben es, aber das Gemini, das ich erlebt habe, liefert falsche Antworten, ist zu langatmig — man will eine Zusammenfassung und bekommt einen Aufsatz — und insgesamt überhaupt nicht zufriedenstellend. Wenn ich dieselbe Frage Gemini und einer deutlich schwächeren Version von ChatGPT stelle, ist ChatGPT viel besser. Übersehe ich vielleicht etwas?
- Ich habe es nur in AI Studio verwendet, und dort ist es deutlich besser als andere Modelle. Mit IDE-Integrationen habe ich keine Erfahrung. Man muss allerdings darauf achten, übertriebenes Lob zu reduzieren, und das hilft auch beim Management des Kontextfensters
- Bei mir ähnlich. Außer für Übersetzungen habe ich es kaum genutzt, und selbst da verweigert es gelegentlich oder verhält sich seltsam. Zuletzt gab es auf einfache Fragen nur ein einzelnes Komma oder unbegründete Ablehnungen wegen Ethikthemen, etwa bei „Rucksack mit Kapuze“. Dass es selbst unproblematische Anfragen ablehnt, ist das größte Problem
- Das hängt vom Einsatzzweck ab. Für simples Q&A ist GPT-5 besser, aber für Schreibaufgaben wie das Erstellen von Berichten aus Rohtext, Zusammenfassungen oder Hervorhebungen ist Gemini überragend
- Ich finde persönlich, dass ChatGPT besonders gut darin ist, Fragen ohne zusätzliche Erläuterungen richtig zu verstehen und in ein gut lesbares Format zu bringen. Das Post-Training von GPT wirkt auf mich eine Stufe besser
- Vielleicht verwendest du es einfach auf die falsche Weise
Gemini 2.5 Flash ist ein beeindruckendes Modell fürs Preis-Leistungs-Verhältnis. Trotzdem verstehe ich nicht, warum Gemini 2.0 Flash noch immer so beliebt ist. Zahlen zu neueren Modellen auf OpenRouter:
- xAI: Grok Code Fast 1: 1.15T
- Anthropic: Claude Sonnet 4: 586B
- Google: Gemini 2.5 Flash: 325B
- Sonoma Sky Alpha: 227B
- Google: Gemini 2.0 Flash: 187B
- DeepSeek: DeepSeek V3.1 (kostenlos): 180B
- xAI: Grok 4 Fast (kostenlos): 158B
- OpenAI: GPT-4.1 Mini: 157B
- DeepSeek: DeepSeek V3 0324: 142B
- Ein Nachteil von OpenRouter ist, dass nicht offengelegt wird, wie viele Unternehmen die einzelnen Modelle tatsächlich nutzen. Wenn ein einzelner Großkunde wechselt, können sich die Kennzahlen schon stark verändern. Mehr Transparenz wäre hier wünschenswert
- Auch bei uns laufen viele Aufgaben noch auf älteren Modellen, weil niemand sie aktualisiert hat
- Wegen des Preises. 2.0 Flash ist günstiger als 2.5 Flash und trotzdem immer noch ein ziemlich gutes Modell
- 2.0 Flash ist klar günstiger als 2.5 Flash und war bis zum jüngsten Update sogar besser als 2.5-Flash-Lite. Für Text-Parsing, Zusammenfassungen und Bilderkennung ist es ein solider Arbeitspartner. Mit 2.5-Flash-Lite dürfte es jetzt aber wohl abgelöst werden
- Vermutlich behalten sie auch bei 2.5 Flash das Namensschema einfach bei, weil es lästig wäre, alles auf die neueste Version umzubenennen.

Verbessertes Gemini 2.5 Flash und Flash-Lite vorgestellt

Überblick über Gemini 2.5 Flash und Flash-Lite

Aktualisiertes Gemini 2.5 Flash-Lite

Aktualisiertes Gemini 2.5 Flash

Mit Gemini loslegen

Bedeutung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare