5 Punkte von GN⁺ 2025-04-18 | 1 Kommentare | Auf WhatsApp teilen
  • Gemini 2.5 Flash ist ein hybrides Inferenzmodell, das über Google AI Studio und Vertex AI bereitgestellt wird und die Inferenzfähigkeiten deutlich verbessert, ohne bei Geschwindigkeit und Kosten Abstriche zu machen
  • Mit der Thinking-Funktion (ein/aus) und der Einstellung thinking_budget lassen sich Leistung, Kosten und Latenz fein abstimmen
  • Durch das Festlegen eines Thinking-Budgets kann die maximale Anzahl an Tokens, die das Modell erzeugen darf, präzise gesteuert werden, wodurch bei komplexen Aufgaben genauere und umfassendere Antworten möglich sind
  • Es ist Googles kosteneffizientestes Inferenzmodell mit hoher Leistung bei niedrigen Kosten und lässt sich flexibel an unterschiedliche Anwendungsfälle anpassen
  • Derzeit ist es in Google AI Studio und Vertex AI als Vorschauversion verfügbar und kann auch über die API konfiguriert werden

Vorschauversion von Gemini 2.5 Flash veröffentlicht

  • Google hat Gemini 2.5 Flash über Google AI Studio und Vertex AI als Vorschauversion (Preview) veröffentlicht
  • Gegenüber 2.0 Flash wurden die Inferenzfähigkeiten deutlich verbessert, während Geschwindigkeit und Kosteneffizienz erhalten bleiben
  • Als erstes vollständig hybrides Inferenzmodell ermöglicht es Entwicklern, den Thinking-Modus ein- oder auszuschalten
  • Über die Einstellung thinking_budget lässt sich das Gleichgewicht zwischen Qualität, Kosten und Antwortlatenz steuern
  • Auch bei deaktiviertem Thinking-Modus bleibt die Leistung höher als bei 2.0 Flash

Die Inferenzfunktionen von Gemini 2.5 Flash

  • Gemini 2.5 Flash erzeugt Antworten nicht sofort, sondern ist so aufgebaut, dass es zuerst einen Denkprozess durchläuft
  • Bei komplexen Problemen, Mathematikaufgaben oder Fragen zur Forschungsanalyse erzeugt es genauere und umfassendere Antworten
  • Im Hard-Prompts-Benchmark von LMArena zeigt es die zweithöchste Leistung nach 2.5 Pro
  • Im Vergleich zu anderen Modellen bietet es bei günstigerem Preis und kleinerer Modellgröße eine ähnliche Leistung

Das kosteneffizienteste Inferenzmodell

  • Gemini 2.5 Flash wird als Inferenzmodell mit dem besten Preis-Leistungs-Verhältnis bewertet
  • Es wurde neu in Googles Pareto-Frontier aus Qualität und Kosteneffizienz aufgenommen

Thinking-Steuerung: thinking_budget

  • Für unterschiedliche Einsatzszenarien bietet es eine feingranulare Steuerung zwischen Qualität, Kosten und Latenz
  • thinking_budget bezeichnet die maximale Anzahl an Tokens, die das Modell für das Denken verwenden darf
    • Beispiel: Ein höheres Budget verbessert die Qualität, erhöht aber Kosten und Latenz
  • Bei einfachen Fragen, die kein Thinking benötigen, wird automatisch ein niedriges Budget angewendet
  • Der Budgetbereich liegt zwischen 0 und 24.576 Tokens und kann in AI Studio sowie Vertex AI per Slider oder API-Parameter angepasst werden

Beispiel-Prompts nach benötigtem Thinking-Niveau

Geringer Inferenzbedarf

  • “Thank you” auf Spanisch
  • Nach der Anzahl der Provinzen in Kanada fragen

Mittlerer Inferenzbedarf

  • Die Wahrscheinlichkeit berechnen, dass beim Würfeln mit zwei Würfeln die Summe 7 ergibt
  • Auf Basis eines Terminplans einen Wochenplan erstellen, in dem 5 Stunden Basketball untergebracht werden können

Hoher Inferenzbedarf

  • Eine Aufgabe zur Berechnung mechanischer Spannungen in einem Träger
  • Eine Funktion zur Auswertung von Formeln im Excel-Stil schreiben
    • Erfordert das Auflösen von Abhängigkeiten, Operatorrangfolge und Zyklen-Erkennung

Erste Schritte

  • Die Preview-Version ist in Google AI Studio, Vertex AI und der Gemini-App verfügbar
  • Durch Experimente mit dem Parameter thinking_budget lässt sich das Potenzial zur Lösung komplexer Probleme ausloten
  • Codebeispiel:
    from google import genai  
    
    client = genai.Client(api_key="GEMINI_API_KEY")  
    
    response = client.models.generate_content(  
      model="gemini-2.5-flash-preview-04-17",  
      contents="You roll two dice. What’s the probability they add up to 7?",  
      config=genai.types.GenerateContentConfig(  
        thinking_config=genai.types.ThinkingConfig(  
          thinking_budget=1024  
        )  
      )  
    )  
    
    print(response.text)  
    
  • Weitere Details finden sich in der Entwicklerdokumentation und im Gemini Cookbook
  • Künftig sollen weitere Funktionen hinzukommen; bis zur offiziellen Veröffentlichung ist eine kontinuierliche Verbesserung geplant

1 Kommentare

 
GN⁺ 2025-04-18
Hacker-News-Kommentare
  • Dass Google Gemini 2.5 Pro (experimentell) kostenlos anbietet, war eine große Sache. Ich kann es nicht mit den teureren Modellen von OpenAI vergleichen, weil ich diese nie benutzt habe, aber im Vergleich zu den kostenlosen Modellen, die ich früher verwendet habe, zeigt Gemini 2.5 Pro eine deutliche Verbesserung. Das Modell ist bei den meisten Themen, mit denen ich mich befasse, klüger als ich, und es versucht nicht, mir einfach zuzustimmen, sondern diskutiert mit mir. Inzwischen konzentriert sich meine gesamte lockere AI-Nutzung auf Gemini, und ich freue mich darauf, zu tiefgehenden Themen Fragen zu stellen. Ich baue gerade neue Tools, um den Wert dieses Modells weiter zu steigern

  • Eine oft übersehene Funktion der Gemini-Modelle ist, dass sie über die API direkt Python-Code schreiben und ausführen können. Mein llm-gemini-Plugin unterstützt das: GitHub-Link. Für die Codeausführung fallen keine zusätzlichen Kosten an, man zahlt nur für Eingabe- und Ausgabe-Token. Ein Beispiel kostete 0,536 Cent bei 10 Eingaben und 1.531 Ausgaben

  • Das Gemini-Flash-Modell bekommt am wenigsten Aufmerksamkeit, bietet in der Praxis aber das beste Preis-Leistungs-Verhältnis und stellt multimodale Tools bereit. Google gewinnt den AI-Wettbewerb still und leise

  • Versteckte Information beim tieferen Eintauchen in die Dokumentation von Gemini 2.5 Flash: Bei Bildeingaben kann das Modell nicht nur 2D-Bounding-Boxes für relevante Themen erzeugen, sondern auch Segmentierungsmasken. Für ein Flash-Modell in dieser Preisklasse ist das Erzeugen von Segmentierungsmasken ziemlich beeindruckend. Die Implementierung erfolgt, indem ein b64-String erzeugt wird, der die Maske darstellt

  • Für mich als Nicht-Programmierer wird Google überraschend gut. Es liefert Code, der von Anfang an funktioniert. Als ich darum bat, Code zum Scrapen und Analysieren von Daten von einer Website zu schreiben, hat es genau das getan. Es war eine grundlegende Datenklassifizierung und Aggregation, aber ich hatte das nicht erwartet

  • Noch mehr Innovation von Google. OpenAI hat zwei große Probleme. Erstens Googles vertikal integrierte Chip-Pipeline sowie das tiefgehende Supply-Chain- und Betriebswissen, das nötig ist, um AI-Chips herzustellen. Das verschafft auf jeder Stufe enorme Kostenvorteile. Zweitens der Mangel an Daten und der unfaire Vorteil sozialer Medien als Quelle ständig aktualisierten Wissens. Neue Daten werden zunehmend zu einem wertvollen Differenzierungsmerkmal. SamA ist sich dieser Probleme bewusst und betrachtet sie als grundlegend dafür, ob OpenAI Erfolg haben wird

  • 50 % Preiserhöhung gegenüber Gemini 2.0 Flash. Das klingt nach viel, aber Flash ist im Vergleich zu anderen Modellen dieser Qualität immer noch sehr günstig

  • Etwas Interessantes im Code der Python-API-Bibliothek entdeckt: GitHub-Link. thinking_budget ist dokumentiert, aber bei include_thoughts ist schwer zu verstehen, was es genau ist. Ich habe keinen Weg gefunden, diese Option zu nutzen, damit Gemini eine Zusammenfassung seiner Gedanken zurückgibt

  • Obwohl Google über die API und das kostenlose AI Studio beeindruckende Modelle anbietet, wirkt das im Gemini-App verwendete Modell deutlich schlechter. Ich habe in den letzten Wochen Gemini Advanced mit einem Workspace-Konto genutzt, und das Modell scheint kürzer nachzudenken, kürzere Ausgaben zu liefern, und auch das Kontextfenster wirkt weit entfernt von den beworbenen 1 Million Token. Es scheint, als würde Google die Gemini-App absichtlich beschränken

  • Als ich ein internes PDF (3 Seiten, mittlere Schwierigkeit) als JSON-Benchmark ausgeführt habe:

    • gemini-flash-2.0: etwa 60 % Genauigkeit, 1 Dollar pro 6.250 Seiten
    • gemini-2.5-flash-preview (ohne Thinking): etwa 80 % Genauigkeit, 1 Dollar pro 1.700 Seiten
    • gemini-2.5-flash-preview (mit Thinking): etwa 80 % Genauigkeit, 1 Dollar pro 350 Seiten
    • gemini-flash-2.5: etwa 90 % Genauigkeit, 1 Dollar pro 150 Seiten
    • Ich wünschte, sie hätten die Thinking-Varianten von den normalen Varianten getrennt. Wenn Modellparameter große Auswirkungen auf den Preis haben, ist das sehr verwirrend