Veröffentlichung von Gemini 2.5 Flash

(developers.googleblog.com)

5 Punkte von GN⁺ 2025-04-18 | 1 Kommentare | Auf WhatsApp teilen

Gemini 2.5 Flash ist ein hybrides Inferenzmodell, das über Google AI Studio und Vertex AI bereitgestellt wird und die Inferenzfähigkeiten deutlich verbessert, ohne bei Geschwindigkeit und Kosten Abstriche zu machen
Mit der Thinking-Funktion (ein/aus) und der Einstellung thinking_budget lassen sich Leistung, Kosten und Latenz fein abstimmen
Durch das Festlegen eines Thinking-Budgets kann die maximale Anzahl an Tokens, die das Modell erzeugen darf, präzise gesteuert werden, wodurch bei komplexen Aufgaben genauere und umfassendere Antworten möglich sind
Es ist Googles kosteneffizientestes Inferenzmodell mit hoher Leistung bei niedrigen Kosten und lässt sich flexibel an unterschiedliche Anwendungsfälle anpassen
Derzeit ist es in Google AI Studio und Vertex AI als Vorschauversion verfügbar und kann auch über die API konfiguriert werden

Vorschauversion von Gemini 2.5 Flash veröffentlicht

Google hat Gemini 2.5 Flash über Google AI Studio und Vertex AI als Vorschauversion (Preview) veröffentlicht
Gegenüber 2.0 Flash wurden die Inferenzfähigkeiten deutlich verbessert, während Geschwindigkeit und Kosteneffizienz erhalten bleiben
Als erstes vollständig hybrides Inferenzmodell ermöglicht es Entwicklern, den Thinking-Modus ein- oder auszuschalten
Über die Einstellung thinking_budget lässt sich das Gleichgewicht zwischen Qualität, Kosten und Antwortlatenz steuern
Auch bei deaktiviertem Thinking-Modus bleibt die Leistung höher als bei 2.0 Flash

Die Inferenzfunktionen von Gemini 2.5 Flash

Gemini 2.5 Flash erzeugt Antworten nicht sofort, sondern ist so aufgebaut, dass es zuerst einen Denkprozess durchläuft
Bei komplexen Problemen, Mathematikaufgaben oder Fragen zur Forschungsanalyse erzeugt es genauere und umfassendere Antworten
Im Hard-Prompts-Benchmark von LMArena zeigt es die zweithöchste Leistung nach 2.5 Pro
Im Vergleich zu anderen Modellen bietet es bei günstigerem Preis und kleinerer Modellgröße eine ähnliche Leistung

Das kosteneffizienteste Inferenzmodell

Gemini 2.5 Flash wird als Inferenzmodell mit dem besten Preis-Leistungs-Verhältnis bewertet
Es wurde neu in Googles Pareto-Frontier aus Qualität und Kosteneffizienz aufgenommen

Thinking-Steuerung: `thinking_budget`

Für unterschiedliche Einsatzszenarien bietet es eine feingranulare Steuerung zwischen Qualität, Kosten und Latenz
thinking_budget bezeichnet die maximale Anzahl an Tokens, die das Modell für das Denken verwenden darf
- Beispiel: Ein höheres Budget verbessert die Qualität, erhöht aber Kosten und Latenz
Bei einfachen Fragen, die kein Thinking benötigen, wird automatisch ein niedriges Budget angewendet
Der Budgetbereich liegt zwischen 0 und 24.576 Tokens und kann in AI Studio sowie Vertex AI per Slider oder API-Parameter angepasst werden

Beispiel-Prompts nach benötigtem Thinking-Niveau

Geringer Inferenzbedarf

“Thank you” auf Spanisch
Nach der Anzahl der Provinzen in Kanada fragen

Mittlerer Inferenzbedarf

Die Wahrscheinlichkeit berechnen, dass beim Würfeln mit zwei Würfeln die Summe 7 ergibt
Auf Basis eines Terminplans einen Wochenplan erstellen, in dem 5 Stunden Basketball untergebracht werden können

Hoher Inferenzbedarf

Eine Aufgabe zur Berechnung mechanischer Spannungen in einem Träger
Eine Funktion zur Auswertung von Formeln im Excel-Stil schreiben
- Erfordert das Auflösen von Abhängigkeiten, Operatorrangfolge und Zyklen-Erkennung

Erste Schritte

Die Preview-Version ist in Google AI Studio, Vertex AI und der Gemini-App verfügbar
Durch Experimente mit dem Parameter thinking_budget lässt sich das Potenzial zur Lösung komplexer Probleme ausloten

Codebeispiel:

from google import genai  

client = genai.Client(api_key=&quot;GEMINI_API_KEY&quot;)  

response = client.models.generate_content(  
  model=&quot;gemini-2.5-flash-preview-04-17&quot;,  
  contents=&quot;You roll two dice. What’s the probability they add up to 7?&quot;,  
  config=genai.types.GenerateContentConfig(  
    thinking_config=genai.types.ThinkingConfig(  
      thinking_budget=1024  
    )  
  )  
)  

print(response.text)

Weitere Details finden sich in der Entwicklerdokumentation und im Gemini Cookbook
Künftig sollen weitere Funktionen hinzukommen; bis zur offiziellen Veröffentlichung ist eine kontinuierliche Verbesserung geplant

1 Kommentare

GN⁺ 2025-04-18

Hacker-News-Kommentare

Dass Google Gemini 2.5 Pro (experimentell) kostenlos anbietet, war eine große Sache. Ich kann es nicht mit den teureren Modellen von OpenAI vergleichen, weil ich diese nie benutzt habe, aber im Vergleich zu den kostenlosen Modellen, die ich früher verwendet habe, zeigt Gemini 2.5 Pro eine deutliche Verbesserung. Das Modell ist bei den meisten Themen, mit denen ich mich befasse, klüger als ich, und es versucht nicht, mir einfach zuzustimmen, sondern diskutiert mit mir. Inzwischen konzentriert sich meine gesamte lockere AI-Nutzung auf Gemini, und ich freue mich darauf, zu tiefgehenden Themen Fragen zu stellen. Ich baue gerade neue Tools, um den Wert dieses Modells weiter zu steigern
Eine oft übersehene Funktion der Gemini-Modelle ist, dass sie über die API direkt Python-Code schreiben und ausführen können. Mein llm-gemini-Plugin unterstützt das: GitHub-Link. Für die Codeausführung fallen keine zusätzlichen Kosten an, man zahlt nur für Eingabe- und Ausgabe-Token. Ein Beispiel kostete 0,536 Cent bei 10 Eingaben und 1.531 Ausgaben
Das Gemini-Flash-Modell bekommt am wenigsten Aufmerksamkeit, bietet in der Praxis aber das beste Preis-Leistungs-Verhältnis und stellt multimodale Tools bereit. Google gewinnt den AI-Wettbewerb still und leise
Versteckte Information beim tieferen Eintauchen in die Dokumentation von Gemini 2.5 Flash: Bei Bildeingaben kann das Modell nicht nur 2D-Bounding-Boxes für relevante Themen erzeugen, sondern auch Segmentierungsmasken. Für ein Flash-Modell in dieser Preisklasse ist das Erzeugen von Segmentierungsmasken ziemlich beeindruckend. Die Implementierung erfolgt, indem ein b64-String erzeugt wird, der die Maske darstellt
Für mich als Nicht-Programmierer wird Google überraschend gut. Es liefert Code, der von Anfang an funktioniert. Als ich darum bat, Code zum Scrapen und Analysieren von Daten von einer Website zu schreiben, hat es genau das getan. Es war eine grundlegende Datenklassifizierung und Aggregation, aber ich hatte das nicht erwartet
Noch mehr Innovation von Google. OpenAI hat zwei große Probleme. Erstens Googles vertikal integrierte Chip-Pipeline sowie das tiefgehende Supply-Chain- und Betriebswissen, das nötig ist, um AI-Chips herzustellen. Das verschafft auf jeder Stufe enorme Kostenvorteile. Zweitens der Mangel an Daten und der unfaire Vorteil sozialer Medien als Quelle ständig aktualisierten Wissens. Neue Daten werden zunehmend zu einem wertvollen Differenzierungsmerkmal. SamA ist sich dieser Probleme bewusst und betrachtet sie als grundlegend dafür, ob OpenAI Erfolg haben wird
50 % Preiserhöhung gegenüber Gemini 2.0 Flash. Das klingt nach viel, aber Flash ist im Vergleich zu anderen Modellen dieser Qualität immer noch sehr günstig
Etwas Interessantes im Code der Python-API-Bibliothek entdeckt: GitHub-Link. thinking_budget ist dokumentiert, aber bei include_thoughts ist schwer zu verstehen, was es genau ist. Ich habe keinen Weg gefunden, diese Option zu nutzen, damit Gemini eine Zusammenfassung seiner Gedanken zurückgibt
Obwohl Google über die API und das kostenlose AI Studio beeindruckende Modelle anbietet, wirkt das im Gemini-App verwendete Modell deutlich schlechter. Ich habe in den letzten Wochen Gemini Advanced mit einem Workspace-Konto genutzt, und das Modell scheint kürzer nachzudenken, kürzere Ausgaben zu liefern, und auch das Kontextfenster wirkt weit entfernt von den beworbenen 1 Million Token. Es scheint, als würde Google die Gemini-App absichtlich beschränken
Als ich ein internes PDF (3 Seiten, mittlere Schwierigkeit) als JSON-Benchmark ausgeführt habe:
- gemini-flash-2.0: etwa 60 % Genauigkeit, 1 Dollar pro 6.250 Seiten
- gemini-2.5-flash-preview (ohne Thinking): etwa 80 % Genauigkeit, 1 Dollar pro 1.700 Seiten
- gemini-2.5-flash-preview (mit Thinking): etwa 80 % Genauigkeit, 1 Dollar pro 350 Seiten
- gemini-flash-2.5: etwa 90 % Genauigkeit, 1 Dollar pro 150 Seiten
- Ich wünschte, sie hätten die Thinking-Varianten von den normalen Varianten getrennt. Wenn Modellparameter große Auswirkungen auf den Preis haben, ist das sehr verwirrend

Veröffentlichung von Gemini 2.5 Flash

Vorschauversion von Gemini 2.5 Flash veröffentlicht

Die Inferenzfunktionen von Gemini 2.5 Flash

Das kosteneffizienteste Inferenzmodell

Thinking-Steuerung: thinking_budget

Beispiel-Prompts nach benötigtem Thinking-Niveau

Geringer Inferenzbedarf

Mittlerer Inferenzbedarf

Hoher Inferenzbedarf

Erste Schritte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare

Thinking-Steuerung: `thinking_budget`