1 Punkte von GN⁺ 2025-06-18 | 1 Kommentare | Auf WhatsApp teilen
  • Mit der offiziellen Veröffentlichung der Modelle Gemini 2.5 Flash und Pro wurde außerdem eine Preview-Version des günstigsten und schnellsten Modells Flash-Lite vorgestellt
  • Flash-Lite ist auf latenzkritische Aufgaben wie Übersetzung und Klassifizierung spezialisiert und bietet geringere Latenz sowie eine höhere Gesamtqualität als 2.0 Flash/Flash-Lite
  • Alle 2.5-Modelle unterstützen Funktionen wie multimodale Eingaben, 1M Token Kontextlänge, Tool-Anbindung (Suche, Code-Ausführung usw.) sowie umschaltbaren Thinking-Modus
  • Das Portfolio wurde mit Blick auf optimierte Preis-Leistung (Pareto Frontier) entwickelt und ist damit gut für die Verarbeitung von Traffic in großem Umfang geeignet
  • Flash-Lite und Flash werden bereits auch für die Suche angepasst und eingesetzt, Entwickler können Preview- oder offizielle Modelle in Google AI Studio und Vertex AI nutzen

Eigenschaften von Flash-Lite

  • Als günstigstes und schnellstes Modell kostet es $0.10 pro 1 Million Input-Token und $0.40 pro 1 Million Output-Token
  • Die Preis-Leistung ist stark, wodurch es sich besonders für Aufgaben mit hohem Anfragevolumen wie Übersetzung und Klassifizierung eignet
  • Gegenüber dem früheren 2.0 Flash-Lite wurde die Gesamtqualität verbessert: Bei Wissenschaft (GPQA) von 64.6% → 66.7%, bei Mathematik (AIME 2025) von 49.8% → 63.1%
  • Bei Code-Generierung und -Bearbeitung liegt es mit 34.3% bzw. 27.1% unter High-Performance-Modellen, ist aber eine kosteneffiziente Option
  • Die Leistung bei der multimodalen Verarbeitung bleibt mit 72.9% stabil, das Bildverständnis wurde von 51.3% auf 57.5% verbessert
  • Wird der Thinking-Modus aktiviert, steigt die Gesamtgenauigkeit; etwa bei HumanEval von 5.1% → 6.9% und bei SWE-bench multi-task von 42.6% → 44.9%
  • Auch bei Faktentreue (SimpleQA) und Verständnis langer Kontexte (MRCR) verbessert der Thinking-Modus die Leistung deutlich; insbesondere steigt die Genauigkeit bei langen Kontexten auf Basis von 1M Token von 5.4% auf 16.8% und damit auf mehr als das Dreifache
  • Auch die mehrsprachigen Fähigkeiten (MMLU) wurden gesteigert und erreichen 81.1% ohne Thinking sowie 84.5% mit Thinking

1 Kommentare

 
GN⁺ 2025-06-18
Hacker-News-Kommentare
  • Im Google-Post wird es nicht erwähnt, aber es scheint, als sei eine Preiserhöhung für das Gemini-2.5-Flash-Modell enthalten
    Bei 2.5 Flash Preview lagen die archivierten Preise bei $0.15 pro 1 Mio. Tokens für Eingabe-Text/Bilder/Videos, $1.00 für Audio und bei der Ausgabe bei $0.60 für non-thinking sowie $3.50 für thinking
    In der neuen Preisstruktur gibt es keine Unterscheidung mehr zwischen thinking und non-thinking
    Eingabe-Text/Bilder/Videos kosten nun $0.30 pro 1 Mio. Tokens, also doppelt so viel, Audio bleibt bei $1.00, und die Ausgabe kostet $2.50 pro 1 Mio. Tokens — deutlich teurer als früher non-thinking, aber günstiger als thinking
    Detaillierte Preisangaben gibt es hier

    • Im Blogpost gibt es mehr Informationen zur Preisänderung
      Weiterführender Link

    • Es gab Aussagen, dass AI-Technologie bald extrem billig werde, aber aktuell steigen die Preise erst einmal

    • Als Gemini ursprünglich veröffentlicht wurde, wirkte der Preis übertrieben niedrig und im Vergleich zur Konkurrenz zu günstig; jetzt scheint er endlich realistischer angesetzt zu sein

    • Ganz beiläufig verdoppelte Preise
      Wenn man bedenkt, dass Gemini 2.0 Flash bei $0.10/$0.40 lag, ist die Erhöhung deutlich spürbar

    • Meinung, dass diese Änderung scharfsinnig bemerkt wurde
      Diese Preisänderung ist aus meiner Sicht ziemlich wichtig für Gemini, das im Bereich Audio-to-Audio zum GOAT hätte werden können

  • Als Gemini Pro eine Zeit lang kostenlos in AI Studio verfügbar war, wurde es meiner Meinung nach von vielen genutzt
    Danach wurde die Leistung eher schlechter, und für wichtige Aufgaben bin ich inzwischen wieder bei Claude
    Gemini fühlt sich stark wie ein Freund an, der unnötig viel redet
    Für Brainstorming nutze ich es aber weiterhin oft und verwende dann verfeinerte, von Gemini erzeugte Prompts in Claude

    • Wenn ich mir das Aider-Leaderboard anschaue, ist Gemini entgegen meiner eigenen Erfahrung nicht immer überlegen
      Ich nutze nur direkt die Aider API und habe keine Erfahrung mit AI Studio
      Claude liefert auch bei schwachen Prompts ordentliche Ergebnisse, besonders wenn die Richtung noch unklar ist
      Wenn ich selbst eine klare Richtung vorgebe, ist Gemini 2.5 Pro (mit aktiviertem Thinking) besser, und der Code läuft stabiler
      Bei o4-mini und o3 wirkt das Denken etwas "smarter", aber der Code ist instabiler (Gemini ist da stabiler)
      Je komplexer es wird, desto schwächer scheint Claude zu werden; für mich liegen Gemini und o3 daher höher
      Seit dem Release von o3-mini gab es für mich keinen Grund mehr, zu Claude zurückzukehren

    • Ich hatte eine ähnliche Erfahrung
      Anfangs schien es selbst komplexe Probleme gut zu lösen, aber bei einfachen Aufgaben ist die Abstimmung schwierig
      Die Antworten sind zu ausschweifend, und da UX für mich am wichtigsten ist, bevorzuge ich aktuell die UX von Claude Code

    • Bei mir ist es genauso: Obwohl ich sogar ein Gem mit einem ausführlichen Prompt gebaut habe, damit es kurz antwortet, bleibt es wortreich und weitet den Rahmen der Frage unnötig aus

    • Ich habe keine internen Informationen, aber es fühlt sich so an, als wäre das Modell quantisiert worden
      Es zeigen sich Muster wie das unendliche Wiederholen eines einzelnen Zeichens — Dinge, die ich sonst nur bei quantisierten Modellen gesehen habe

    • Ich wünschte, man würde auf die frühere Preview-Version zurückrollen
      Die Preview war ausgewogen und hat tatsächlich nützliche Gegenargumente geliefert, während die GA-Version einen übertrieben positiven Ton angenommen hat

  • Ich bin von Gemini sehr beeindruckt und habe aufgehört, OpenAI zu nutzen
    Gelegentlich teste ich über OpenRouter alle drei Modelle, aber derzeit nutze ich zu über 90 % nur Gemini
    Verglichen mit dem letzten Jahr, als es zu 90 % ChatGPT war, ist das eine ziemlich große Veränderung

    • Ich stehe Google eher kritisch gegenüber, aber diesmal finde ich die Modelle wirklich hervorragend
      Besonders das enorm große context window ist ein riesiger Vorteil

    • Bei mir genauso: Dieses Mal habe ich mein Claude-Abonnement gekündigt und denke, dass Gemini sehr schnell aufholt

  • Durch diese Ankündigung wird Flash Lite meiner Meinung nach von "nutzlos" zu einem "brauchbaren Werkzeug" aufgewertet
    Flash Lite ist günstig und vor allem durch seine Geschwindigkeit stark — fast immer unter 1 Sekunde Antwortzeit (Minimum 200 ms, Durchschnitt 400 ms)
    In unserem Service Brokk(brokk.ai) nutzen wir derzeit Flash 2.0 (nicht Lite) für Quick Edits, und wir prüfen nun die Einführung von 2.5 Lite
    Ich frage mich aber, wofür ein Modell unterhalb von Flash 2.5 sinnvoll ist, wenn dessen Thinking zu langsam ist
    Schnelle Antworten sind wichtig, aber mit aktiviertem Thinking wird es langsamer und damit etwas unklar in der Positionierung

    • Für mich gilt: Solange schnell genug gedacht wird, ist es mir egal, wie viel Thinking intern verwendet wird
  • Ich würde gern wissen, wie Leute Gemini außerhalb des Codings nutzen und warum sie es gewählt haben
    Entwerft ihr beim Bauen von Apps GenAI-Backends so, dass sie austauschbar sind, oder verteilt ihr Last über mehrere Anbieter wegen Preis oder Zuverlässigkeit? Und was würde sich ändern, falls für LLMs irgendwann ein Spotmarkt entstünde?

    • Meiner Erfahrung nach sticht Gemini 2.5 Pro bei nicht-programmierbezogenen Aufgaben wie Übersetzung oder Zusammenfassungen (mit Canva) hervor
      Möglich wird das durch das riesige Kontextfenster und die hohen Nutzungslimits
      Besonders bei der Erstellung von Research-Berichten halte ich Gemini für besser als ChatGPT
      Vielleicht weil Google bei der Suche so stark ist, basieren die Berichte auf mehreren Quellen und sind genauer
      Auch den Schreibstil bevorzuge ich, und der Export nach Google Docs ist praktisch
      Ein großer Nachteil ist allerdings, dass die UI im Vergleich zur Konkurrenz deutlich schwächer ist und wichtige Funktionen wie Custom instruction, Projects und Temporary Chat fehlen oder nur unzureichend vorhanden sind

    • Es ist nützlich, viele NDA-Dokumente auf einmal hineinzugeben und innerhalb weniger Sekunden nur die relevanten Inhalte herausziehen zu lassen
      Wegen des großen Kontextfensters und der starken Fähigkeit, exakt die benötigten Informationen zu extrahieren, ist es für solche Aufgaben ideal

    • Gemini Flash 2.0 ist extrem günstig und ein starkes Modell für Workloads auf Enterprise-Niveau
      Es ist nicht State of the Art in Sachen Intelligenz, aber beim Entwickeln bin ich mit dem niedrigen Preis, der hohen Geschwindigkeit und der zuverlässigen strukturierten Ausgabe sehr zufrieden
      Ich plane, ein Upgrade auf 2.5 Lite zu testen

    • Ich nutze lexikon.ai häufig und setze Gemini besonders oft für die Verarbeitung großer Bildmengen ein
      Die Preise der Google Vision API sind im Vergleich zu anderen großen Anbietern (OpenAI, Anthropic) deutlich günstiger, was sehr attraktiv ist

    • Ich nutze Gemini 2.5 Flash (mit non-thinking-Option) als Denkpartner
      Es hilft mir, meine Gedanken zu ordnen, und liefert automatisch Inputs, auf die ich selbst nicht gekommen wäre
      Auch zur Selbstreflexion finde ich es nützlich: Ich werfe meine Gedanken oder Sorgen hinein und orientiere mich an der Antwort der AI

  • Ich frage mich, ob es derzeit Leute gibt, die keinen Zugriff auf die 2.5-pro-API haben
    Ich erhalte den Fehler: "projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro konnte nicht gefunden werden oder du hast keinen Zugriff darauf"
    Dazu erscheint der Hinweis, zu prüfen, ob eine gültige Modellversion verwendet wird

  • Ich betreibe einen Service für umfangreiche LLM-Inferenz/Datenverarbeitung und mache viel Kosten- und Performance-Profiling für verschiedene Open-Weight-Modelle
    Was an der LLM-Preisgestaltung weiterhin seltsam ist: Anbieter rechnen immer noch linear nach Tokenverbrauch ab, obwohl die realen Systemkosten mit wachsender Sequenzlänge quadratisch steigen
    Da sich aktuelle Modellarchitekturen, Inferenzalgorithmen und Hardware weitgehend angenähert haben, beziehen Anbieter bei der Preisfestlegung offenbar stark historische Statistiken über Anfrage-Muster ihrer Kunden ein
    Dass mit zunehmender Kenntnis der tatsächlichen Nutzungsdaten dann Preissteigerungen auftauchen, finde ich letztlich nicht überraschend

  • Im Vergleich zu 2.0 Flash Lite ist der Preis für Audioverarbeitung bei 2.5 Flash Lite um das 6,33-Fache gestiegen
    Audio-Eingabe kostet bei 2.5 Flash Lite $0.5 pro 1 Mio. Tokens, bei 2.0 waren es $0.075
    Ich frage mich, warum der Preis für Audio-Tokens so drastisch gestiegen ist

  • Nimmt man ein Verhältnis von Eingabe- zu Ausgabe-Tokens von 3:1 an, ist der blended price gegenüber früher um das 3,24-Fache gestiegen und liegt im Vergleich zu 2.0 Flash fast beim 5-Fachen
    Deshalb dürfte 2.0 Flash für viele Anwendungsfälle — besonders außerhalb des Codings — weiterhin konkurrenzfähig bleiben
    Selbst wenn die Leistung etwas niedriger ist, kann es in der Praxis effektiver sein, Prompts auf mehrere Durchläufe aufzuteilen
    Schade, ich hatte erwartet, dass 2.5 Flash diesmal die eindeutig überlegene Wahl sein würde
    (Relevante Preisdaten hier)