Gemini 3.5 Flash
(blog.google)- Gemini 3.5 Flash ist das erste Gemini-3.5-Modell, das Frontier-KI mit Ausführungsfähigkeit kombiniert und auf langfristige Aufgaben für Agenten und Coding abzielt
- Es behält die Geschwindigkeit der Flash-Serie bei und übertrifft gleichzeitig Gemini 3.1 Pro bei Terminal-Bench 2.1 mit 76,2 % und bei GDPval-AA mit 1656 Elo
- Bei Ausgabetokens verarbeitet es pro Sekunde 4-mal schneller als andere Frontier-Modelle und kostet in vielen Fällen weniger als die Hälfte, was es für langfristige Agentenaufgaben vorteilhaft macht
- In Antigravity und AI Studio führt es mehrstufige Aufgaben aus, etwa App-Entwicklung, die Umstellung von Legacy-Code auf Next.js, die Umsetzung eines Spiels auf Basis einer Forschungsarbeit und die Erstellung von UX-Entwürfen
- Es wird als Standardmodell in der Gemini-App und im AI Mode der Search bereitgestellt, kommt zudem in Gemini Spark und in Workflows von Enterprise-Partnern zum Einsatz, während 3.5 Pro für den nächsten Monat geplant ist
Vorstellung von Gemini 3.5 und Verfügbarkeit
- Gemini 3.5 ist die neueste Modellfamilie, die Frontier-KI und Ausführungsfähigkeit kombiniert und als Grundlage für leistungsfähigere Agenten positioniert ist
- Das erste veröffentlichte Modell ist 3.5 Flash; es liefert Frontier-Leistung für Agenten und Coding und konzentriert sich auf komplexe, langfristige Aufgaben mit praktischem Nutzen
- 3.5 Flash ist über mehrere Google-Produkte und Entwicklerwerkzeuge verfügbar
- Für allgemeine Nutzer über die Gemini-App und den AI Mode von Google Search
- Für Entwickler über Google Antigravity, die Gemini API in Google AI Studio und Android Studio
- Für Unternehmen über die Gemini Enterprise Agent Platform und Gemini Enterprise
- 3.5 Pro befindet sich ebenfalls in Entwicklung, wird intern bereits genutzt und soll im nächsten Monat erscheinen
Leistung von 3.5 Flash
- 3.5 Flash bewahrt die Geschwindigkeit der Flash-Serie und bietet zugleich Intelligenz, die in mehreren Dimensionen mit großen Flaggschiffmodellen konkurriert
- Als Googles leistungsstärkstes agentisches Coding-Modell übertrifft es Gemini 3.1 Pro in anspruchsvollen Coding- und Agenten-Benchmarks
- Terminal-Bench 2.1: 76,2 %
- GDPval-AA: 1656 Elo
- MCP Atlas: 83,6 %
- CharXiv Reasoning multimodales Verständnis: 84,2 %
- Bei Ausgabetokens liegt die Verarbeitungsgeschwindigkeit pro Sekunde 4-mal höher als bei anderen Frontier-Modellen
- Im Artificial-Analysis-Diagramm befindet es sich im oberen rechten Quadranten und zeigt damit ein Modell mit geringerem Trade-off zwischen Qualität und Latenz
Agentenaufgaben im großen Maßstab
- Dank des ausgewogenen Verhältnisses von Geschwindigkeit und Leistung eignet sich 3.5 Flash für langfristige Agentenaufgaben
- Es hilft dabei, Aufgaben, für die Entwickler früher Tage und Prüfer Wochen brauchten, in kürzerer Zeit abzuschließen, oft zu weniger als der Hälfte der Kosten anderer Frontier-Modelle
- Bei der Lösung realer Probleme kann es schnell planen, bauen und iterieren
- Entwicklung neuer Anwendungen
- Wartung von Codebasen
- Unterstützung bei der Vorbereitung von Finanzdokumenten
- In Kombination mit dem aktualisierten Antigravity-Harness wird es zu einer Ausführungs-Engine, die in anspruchsvollen Anwendungsfällen kollaborative Sub-Agenten einsetzen kann, um Probleme im großen Maßstab zu bearbeiten
- Es führt unter Aufsicht mehrstufige Workflows und Coding-Aufgaben zuverlässig aus und hält dabei Frontier-Leistung aufrecht
Beispiele für den Einsatz in Antigravity und AI Studio
- 3.5 Flash führt in Antigravity mehrstufige Workflows aus, bei denen unstrukturierte Assets anhand dynamischer Kriterien automatisch umbenannt und klassifiziert werden
- In Antigravity nutzt es zwei Agenten, um die AlphaZero-Arbeit zusammenzufassen und innerhalb von 6 Stunden ein vollständig spielbares Spiel zu programmieren
- Mit dem Antigravity-Harness wandelt es komplexe Legacy-Codebasen in Next.js um
- In Antigravity entwickelt es mit Sub-Agenten ein Spiel, indem es neue Stadtlandschaften generiert und schnelle Selbstverbesserungsschleifen zwischen einem Builder- und einem Player-Agenten nutzt
- Aufbauend auf den starken multimodalen Fähigkeiten von Gemini 3 erzeugt 3.5 Flash reichhaltigere und interaktivere Web-UIs und Grafiken
- In AI Studio erstellt es interaktive Animationen für KI-Forschungsarbeiten
- In AI Studio wandelt es allgemeine Textbeschreibungen in interaktive Hardware um
- In AI Studio führt es mehrere Konzepte parallel aus, um ein vollständiges Branding-Konzept für eine Schul-Spendenaktion zu erstellen
- In AI Studio erzeugt es in 60 Sekunden verschiedene UX-Ansätze für einen Checkout-Flow
Einsatz in Unternehmen und für Entwickler
- Die agentischen Fähigkeiten von 3.5 Flash werden bereits in Entwickler- und Unternehmens-Workflows genutzt
- Bei der Entwicklung der Gemini-3.5-Modellfamilie wurden gemeinsam mit Industriepartnern repetitive Aufgaben und Punkte identifiziert, an denen Komplexität entsteht
- Partner sehen bereits Effekte – von der Automatisierung wochenlanger Workflows in Banken und Fintechs bis hin zur Unterstützung von Data-Science-Teams bei der Suche nach Erkenntnissen in komplexen Datenumgebungen
-
Shopify
- Führt Sub-Agenten parallel aus, um langfristig komplexe Daten zu analysieren und weltweit präzisere Händler-Wachstumsprognosen zu erstellen
-
Macquarie Bank
- Pilotiert einen Ansatz, der komplexe Dokumente mit über 100 Seiten erschließt, relevante Informationen sucht und mit geringer Latenz verlässliche Empfehlungen erzeugt, um das Kunden-Onboarding zu beschleunigen
-
Salesforce
- Integriert 3.5 Flash in Agentforce, um komplexe Unternehmensaufgaben mit mehreren Sub-Agenten zu automatisieren, die Kontext beibehalten und komplexe Multi-Turn-Tool-Aufrufe ausführen
-
Ramp
- Unterstützt intelligenteres und verlässlicheres OCR, indem multimodales Verständnis komplexer Rechnungen mit Schlussfolgerungen aus historischen Mustern kombiniert wird
-
Xero
- Ermöglicht die Automatisierung repetitiver Verwaltungsaufgaben kleiner Unternehmen, indem Agenten komplexe, sich über mehrere Wochen erstreckende Workflows wie Lieferantenidentifikation und Informationssammlung für 1099-Steuerformulare autonom verwalten
-
Databricks
- Nutzt agentische Workflows, um Echtzeitinformationen zu überwachen und abzurufen, über große Datensätze hinweg Schlussfolgerungen zu ziehen, Probleme zu diagnostizieren und Korrekturen sowie Lösungen vorzuschlagen
Persönliche KI-Agenten und Einsatz in der Search
- 3.5 Flash wird zum Standardmodell in der Gemini-App und im AI Mode der Search weltweit
- Auf der Google I/O wurden neue Funktionen vorgestellt, die die Agentenfähigkeiten von 3.5 Flash in den Alltag bringen
- Gemini Spark ist ein persönlicher KI-Agent auf Basis von 3.5 Flash
- Läuft rund um die Uhr
- Navigiert auf Anweisung des Nutzers durch dessen digitales Leben und handelt in seinem Namen
- Wird ab heute an vertrauenswürdige Tester ausgerollt
- Soll in der kommenden Woche als Beta für Google-AI-Ultra-Abonnenten in den USA verfügbar werden
- Die verbesserten agentischen Coding-Fähigkeiten von 3.5 Flash ermöglichen intelligentere Erfahrungen in der Search
- Einführung eines neuen Informationsagenten, der rund um die Uhr für Nutzer arbeitet
- Ermöglicht dynamischere generative UI-Erlebnisse
- Search nutzt 3.5 Flash, um interaktive Visualisierungen zur Erklärung des Gyroid-Musters zu erzeugen
Sicherheitsvorkehrungen
- Gemini 3.5 wurde im Rahmen des Frontier Safety Framework entwickelt
- Cyber- und CBRN-Sicherheitsvorkehrungen wurden verstärkt, sodass die Wahrscheinlichkeit sinkt, schädliche Inhalte zu erzeugen oder sichere Anfragen fälschlich abzulehnen
- Es kommen neue und fortschrittlichere Techniken für Sicherheitstraining und Risikominderung zum Einsatz
- Enthält Interpretierbarkeits-Tools, die dabei helfen, das interne Schlussfolgern der KI vor einer Antwort zu prüfen und besser zu verstehen
1 Kommentare
Hacker-News-Kommentare
Der Pelikan ist ziemlich plausibel: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
Als Fahrrad taugt er allerdings nicht besonders. Die Stange zwischen Pedal und Hinterrad fehlt, und auch der restliche Rahmen ist seltsam verheddert
Teuer ist es außerdem. Dieser eine Pelikan hat 13 Cent gekostet: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...
Dieses Beispiel ist klar deutlich besser geworden und absurd detailreich, aber die grundlegende Form des Rahmens ist immer noch falsch. Bei Webseiten zeigt sich dasselbe Muster, indem einfach mehr Dinge wie Buttons hinzugefügt werden
Ich habe sogar versucht, das kaputte Pelikan-SVG in ein Bildmodell zu geben und es die Defekte finden zu lassen, aber auch das konnte die kaputten Elemente nicht erkennen
https://www.gianlucagimini.it/portfolio-item/velocipedia/
Preis pro eine Million Eingabe-/Ausgabe-Token:
Gemini 2.5 Flash: $0.30/$2.50
Gemini 3.0 Flash Preview: $0.50/$3.00
Gemini 3.5 Flash: $1.50/$9.00
Die Preisentwicklung ist interessant. Ich glaube nicht, dass ich je bei einem direkt nachfolgenden Modell derselben Größenklasse eine Verdreifachung des Preises gesehen habe, und dass es von 3 nur ein Preview gab, ist auch irgendwie witzig
3.5 Flash kostet ähnlich viel wie Gemini 2.5 Pro mit $1.25/$10
Gemini 2.5 Flash(27 Punkte): $172(1.0x)
Gemini 2.5 Pro(35 Punkte): $649(3.8x)
Gemini 3.0 Flash(46 Punkte): $278(1.6x)
Gemini 3.5 Flash(55 Punkte): $1,552(9.0x oder 2.4x gegenüber 2.5 Pro)
Das ist ein massiver Preissprung. Gegenüber Gemini 3.0 Flash sind es 5,6x
Deshalb ist eine Abstraktionsschicht ohne Provider-Bindung wirklich sinnvoll. Wenn man Kotlin nutzt, ist Koog hervorragend
Oder sie sehen gute Benchmarks und meinen deshalb, den Preis erhöhen zu können. Es wirkt aber noch nicht so, als hätten sie dafür bereits genug Marktanteil, um diese Entscheidung zu rechtfertigen
https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
Dass Google dieses Modell als Stable und nicht als Preview markiert hat, ist bemerkenswert. Im Vergleich zum jüngsten Veröffentlichungsmuster ist das ungewöhnlich
Zusammen mit der 3x-Preiserhöhung liest sich das eher wie die von Google gewünschte langfristige Untergrenze für Flash-Preise als wie eine spätere vorübergehende Korrektur
Ob das nur daran liegt, dass Google die Stimmung besser gelesen hat, oder ob die ganze Branche stillschweigend die Untergrenze für billige Inferenz neu festlegt, lässt sich aber noch schwer beurteilen
https://gistpreview.github.io/?3496285c5dac5ba10ebbc0b201a1a...
Gemini 2.5 Pro - 5,325 tokens:
https://gistpreview.github.io/?cc5e0fefeaaffecd228c16c95e736...
Gemini 2.5 Flash - 7,556 tokens:
https://gistpreview.github.io/?263d6058fe526a62b8f270f0620ec...
Gemma 4 31B IT - in AI Studio 3,261 tokens:
https://gistpreview.github.io/?858a42b96af864859a3b89508619d...
Gemma 4 26B A4B IT - in AI Studio 4,034 tokens:
https://gistpreview.github.io/?4adb7703897e0c6b583f9de928e4a...
8112 tokens @ 52.97 TPS, 0.85s TTFT
https://gistpreview.github.io/?7bdefff99aca89d1bc12405323bd4...
Gesamte Sitzung: https://gist.github.com/abtinf/7bdefff99aca89d1bc12405323bd4...
Erzeugt mit LM Studio auf einem Macbook Pro M2 Max
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6...
https://gistpreview.github.io/?557f979c82701862bc26d24f10399...
https://claude.ai/public/artifacts/128ebe5a-add7-406a-9bce-6...
Bin ich wirklich so alt, dass ich bei "Flash" sofort an "Try HTML5 instead" denken muss?
Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
Seit Jahren, so vielen, dass ich sie nicht einmal mehr zählen kann, muss ich immer daran denken, wenn ich das Wort "flash" höre
Wissensstand: Januar 2025
Letztes Update: Mai 2026
Dabei habe ich ein ziemlich ungutes Gefühl
Um qualitativ hochwertigeres Reasoning zu bekommen, muss man das Training also fokussieren, und die Daten müssen sehr hochwertig und informationsdicht sein
Wenn die Tool-Nutzung stark ist, ist es vielleicht gar nicht so wichtig, dass das Modell selbst alte Daten verwendet. Es kann aktuelle Informationen nachschlagen. Allerdings tun das die meisten Modelle derzeit nicht, wenn man sie nicht ein wenig dazu anstößt
Soweit ich weiß, basieren alle Qwen-3-Varianten auf demselben Grundmodell und wurden nur per Fine-Tuning/Post-Training auf verschiedene Metriken optimiert. Bei Gemini 3 könnte es genauso sein, und vielleicht werden genau jetzt parallel Gemini-4-basierte Modelle mit aktuellem Wissen trainiert
Ich nutze den google ai pro plan und habe 3.5 Flash in Antigravity ausprobiert, aber nach nur zwei Prompts war mein Kontingent aufgebraucht. Falls das kein Bug ist, ist es wirklich unbenutzbar
Wenn man die Stimmung im Gemini-Subreddit ansieht, scheint es deutlich weniger zu sein als vorher. Ich werde AI Pro wahrscheinlich auch kündigen
Mit diesem Update wurde auch die App kaputtgemacht. Wenn man eine Nachricht bearbeitet, stürzt die App jedes Mal ab. Und das sogar auf einem Pixel
Die 2000-Token-Uhr von Gemini 3.5 Flash ist nicht schlecht. https://clocks.brianmoore.com/
Eine Verdreifachung des Preises für fast dasselbe Modell. Dabei hieß es doch, AI werde billiger und überall einsetzbar
Die Preise sind absurd
Gemini 3.5 Pro wird preislich vermutlich mitziehen. 12 x 5 = 60?
Es wirkt, als wolle Google, dass wir chinesische Modelle benutzen