- Gemini 2.5 Flash ist ein hybrides Inferenzmodell, das über Google AI Studio und Vertex AI bereitgestellt wird und die Inferenzfähigkeiten deutlich verbessert, ohne bei Geschwindigkeit und Kosten Abstriche zu machen
- Mit der Thinking-Funktion (ein/aus) und der Einstellung
thinking_budget lassen sich Leistung, Kosten und Latenz fein abstimmen
- Durch das Festlegen eines Thinking-Budgets kann die maximale Anzahl an Tokens, die das Modell erzeugen darf, präzise gesteuert werden, wodurch bei komplexen Aufgaben genauere und umfassendere Antworten möglich sind
- Es ist Googles kosteneffizientestes Inferenzmodell mit hoher Leistung bei niedrigen Kosten und lässt sich flexibel an unterschiedliche Anwendungsfälle anpassen
- Derzeit ist es in Google AI Studio und Vertex AI als Vorschauversion verfügbar und kann auch über die API konfiguriert werden
Vorschauversion von Gemini 2.5 Flash veröffentlicht
- Google hat Gemini 2.5 Flash über Google AI Studio und Vertex AI als Vorschauversion (Preview) veröffentlicht
- Gegenüber 2.0 Flash wurden die Inferenzfähigkeiten deutlich verbessert, während Geschwindigkeit und Kosteneffizienz erhalten bleiben
- Als erstes vollständig hybrides Inferenzmodell ermöglicht es Entwicklern, den Thinking-Modus ein- oder auszuschalten
- Über die Einstellung
thinking_budget lässt sich das Gleichgewicht zwischen Qualität, Kosten und Antwortlatenz steuern
- Auch bei deaktiviertem Thinking-Modus bleibt die Leistung höher als bei 2.0 Flash
Die Inferenzfunktionen von Gemini 2.5 Flash
- Gemini 2.5 Flash erzeugt Antworten nicht sofort, sondern ist so aufgebaut, dass es zuerst einen Denkprozess durchläuft
- Bei komplexen Problemen, Mathematikaufgaben oder Fragen zur Forschungsanalyse erzeugt es genauere und umfassendere Antworten
- Im Hard-Prompts-Benchmark von LMArena zeigt es die zweithöchste Leistung nach 2.5 Pro
- Im Vergleich zu anderen Modellen bietet es bei günstigerem Preis und kleinerer Modellgröße eine ähnliche Leistung
Das kosteneffizienteste Inferenzmodell
- Gemini 2.5 Flash wird als Inferenzmodell mit dem besten Preis-Leistungs-Verhältnis bewertet
- Es wurde neu in Googles Pareto-Frontier aus Qualität und Kosteneffizienz aufgenommen
Thinking-Steuerung: thinking_budget
- Für unterschiedliche Einsatzszenarien bietet es eine feingranulare Steuerung zwischen Qualität, Kosten und Latenz
thinking_budget bezeichnet die maximale Anzahl an Tokens, die das Modell für das Denken verwenden darf
- Beispiel: Ein höheres Budget verbessert die Qualität, erhöht aber Kosten und Latenz
- Bei einfachen Fragen, die kein Thinking benötigen, wird automatisch ein niedriges Budget angewendet
- Der Budgetbereich liegt zwischen 0 und 24.576 Tokens und kann in AI Studio sowie Vertex AI per Slider oder API-Parameter angepasst werden
Beispiel-Prompts nach benötigtem Thinking-Niveau
Geringer Inferenzbedarf
- “Thank you” auf Spanisch
- Nach der Anzahl der Provinzen in Kanada fragen
Mittlerer Inferenzbedarf
- Die Wahrscheinlichkeit berechnen, dass beim Würfeln mit zwei Würfeln die Summe 7 ergibt
- Auf Basis eines Terminplans einen Wochenplan erstellen, in dem 5 Stunden Basketball untergebracht werden können
Hoher Inferenzbedarf
- Eine Aufgabe zur Berechnung mechanischer Spannungen in einem Träger
- Eine Funktion zur Auswertung von Formeln im Excel-Stil schreiben
- Erfordert das Auflösen von Abhängigkeiten, Operatorrangfolge und Zyklen-Erkennung
Erste Schritte
- Die Preview-Version ist in Google AI Studio, Vertex AI und der Gemini-App verfügbar
- Durch Experimente mit dem Parameter
thinking_budget lässt sich das Potenzial zur Lösung komplexer Probleme ausloten
- Codebeispiel:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- Weitere Details finden sich in der Entwicklerdokumentation und im Gemini Cookbook
- Künftig sollen weitere Funktionen hinzukommen; bis zur offiziellen Veröffentlichung ist eine kontinuierliche Verbesserung geplant
1 Kommentare
Hacker-News-Kommentare
Dass Google Gemini 2.5 Pro (experimentell) kostenlos anbietet, war eine große Sache. Ich kann es nicht mit den teureren Modellen von OpenAI vergleichen, weil ich diese nie benutzt habe, aber im Vergleich zu den kostenlosen Modellen, die ich früher verwendet habe, zeigt Gemini 2.5 Pro eine deutliche Verbesserung. Das Modell ist bei den meisten Themen, mit denen ich mich befasse, klüger als ich, und es versucht nicht, mir einfach zuzustimmen, sondern diskutiert mit mir. Inzwischen konzentriert sich meine gesamte lockere AI-Nutzung auf Gemini, und ich freue mich darauf, zu tiefgehenden Themen Fragen zu stellen. Ich baue gerade neue Tools, um den Wert dieses Modells weiter zu steigern
Eine oft übersehene Funktion der Gemini-Modelle ist, dass sie über die API direkt Python-Code schreiben und ausführen können. Mein llm-gemini-Plugin unterstützt das: GitHub-Link. Für die Codeausführung fallen keine zusätzlichen Kosten an, man zahlt nur für Eingabe- und Ausgabe-Token. Ein Beispiel kostete 0,536 Cent bei 10 Eingaben und 1.531 Ausgaben
Das Gemini-Flash-Modell bekommt am wenigsten Aufmerksamkeit, bietet in der Praxis aber das beste Preis-Leistungs-Verhältnis und stellt multimodale Tools bereit. Google gewinnt den AI-Wettbewerb still und leise
Versteckte Information beim tieferen Eintauchen in die Dokumentation von Gemini 2.5 Flash: Bei Bildeingaben kann das Modell nicht nur 2D-Bounding-Boxes für relevante Themen erzeugen, sondern auch Segmentierungsmasken. Für ein Flash-Modell in dieser Preisklasse ist das Erzeugen von Segmentierungsmasken ziemlich beeindruckend. Die Implementierung erfolgt, indem ein b64-String erzeugt wird, der die Maske darstellt
Für mich als Nicht-Programmierer wird Google überraschend gut. Es liefert Code, der von Anfang an funktioniert. Als ich darum bat, Code zum Scrapen und Analysieren von Daten von einer Website zu schreiben, hat es genau das getan. Es war eine grundlegende Datenklassifizierung und Aggregation, aber ich hatte das nicht erwartet
Noch mehr Innovation von Google. OpenAI hat zwei große Probleme. Erstens Googles vertikal integrierte Chip-Pipeline sowie das tiefgehende Supply-Chain- und Betriebswissen, das nötig ist, um AI-Chips herzustellen. Das verschafft auf jeder Stufe enorme Kostenvorteile. Zweitens der Mangel an Daten und der unfaire Vorteil sozialer Medien als Quelle ständig aktualisierten Wissens. Neue Daten werden zunehmend zu einem wertvollen Differenzierungsmerkmal. SamA ist sich dieser Probleme bewusst und betrachtet sie als grundlegend dafür, ob OpenAI Erfolg haben wird
50 % Preiserhöhung gegenüber Gemini 2.0 Flash. Das klingt nach viel, aber Flash ist im Vergleich zu anderen Modellen dieser Qualität immer noch sehr günstig
Etwas Interessantes im Code der Python-API-Bibliothek entdeckt: GitHub-Link.
thinking_budgetist dokumentiert, aber beiinclude_thoughtsist schwer zu verstehen, was es genau ist. Ich habe keinen Weg gefunden, diese Option zu nutzen, damit Gemini eine Zusammenfassung seiner Gedanken zurückgibtObwohl Google über die API und das kostenlose AI Studio beeindruckende Modelle anbietet, wirkt das im Gemini-App verwendete Modell deutlich schlechter. Ich habe in den letzten Wochen Gemini Advanced mit einem Workspace-Konto genutzt, und das Modell scheint kürzer nachzudenken, kürzere Ausgaben zu liefern, und auch das Kontextfenster wirkt weit entfernt von den beworbenen 1 Million Token. Es scheint, als würde Google die Gemini-App absichtlich beschränken
Als ich ein internes PDF (3 Seiten, mittlere Schwierigkeit) als JSON-Benchmark ausgeführt habe: