Gemini 3.5 Flash

(blog.google)

6 Punkte von GN⁺ 2026-05-20 | 1 Kommentare | Auf WhatsApp teilen

Gemini 3.5 Flash ist das erste Gemini-3.5-Modell, das Frontier-KI mit Ausführungsfähigkeit kombiniert und auf langfristige Aufgaben für Agenten und Coding abzielt
Es behält die Geschwindigkeit der Flash-Serie bei und übertrifft gleichzeitig Gemini 3.1 Pro bei Terminal-Bench 2.1 mit 76,2 % und bei GDPval-AA mit 1656 Elo
Bei Ausgabetokens verarbeitet es pro Sekunde 4-mal schneller als andere Frontier-Modelle und kostet in vielen Fällen weniger als die Hälfte, was es für langfristige Agentenaufgaben vorteilhaft macht
In Antigravity und AI Studio führt es mehrstufige Aufgaben aus, etwa App-Entwicklung, die Umstellung von Legacy-Code auf Next.js, die Umsetzung eines Spiels auf Basis einer Forschungsarbeit und die Erstellung von UX-Entwürfen
Es wird als Standardmodell in der Gemini-App und im AI Mode der Search bereitgestellt, kommt zudem in Gemini Spark und in Workflows von Enterprise-Partnern zum Einsatz, während 3.5 Pro für den nächsten Monat geplant ist

Vorstellung von Gemini 3.5 und Verfügbarkeit

Gemini 3.5 ist die neueste Modellfamilie, die Frontier-KI und Ausführungsfähigkeit kombiniert und als Grundlage für leistungsfähigere Agenten positioniert ist
Das erste veröffentlichte Modell ist 3.5 Flash; es liefert Frontier-Leistung für Agenten und Coding und konzentriert sich auf komplexe, langfristige Aufgaben mit praktischem Nutzen
3.5 Flash ist über mehrere Google-Produkte und Entwicklerwerkzeuge verfügbar
- Für allgemeine Nutzer über die Gemini-App und den AI Mode von Google Search
- Für Entwickler über Google Antigravity, die Gemini API in Google AI Studio und Android Studio
- Für Unternehmen über die Gemini Enterprise Agent Platform und Gemini Enterprise
3.5 Pro befindet sich ebenfalls in Entwicklung, wird intern bereits genutzt und soll im nächsten Monat erscheinen

Leistung von 3.5 Flash

3.5 Flash bewahrt die Geschwindigkeit der Flash-Serie und bietet zugleich Intelligenz, die in mehreren Dimensionen mit großen Flaggschiffmodellen konkurriert
Als Googles leistungsstärkstes agentisches Coding-Modell übertrifft es Gemini 3.1 Pro in anspruchsvollen Coding- und Agenten-Benchmarks
- Terminal-Bench 2.1: 76,2 %
- GDPval-AA: 1656 Elo
- MCP Atlas: 83,6 %
- CharXiv Reasoning multimodales Verständnis: 84,2 %
Bei Ausgabetokens liegt die Verarbeitungsgeschwindigkeit pro Sekunde 4-mal höher als bei anderen Frontier-Modellen
Im Artificial-Analysis-Diagramm befindet es sich im oberen rechten Quadranten und zeigt damit ein Modell mit geringerem Trade-off zwischen Qualität und Latenz

Agentenaufgaben im großen Maßstab

Dank des ausgewogenen Verhältnisses von Geschwindigkeit und Leistung eignet sich 3.5 Flash für langfristige Agentenaufgaben
Es hilft dabei, Aufgaben, für die Entwickler früher Tage und Prüfer Wochen brauchten, in kürzerer Zeit abzuschließen, oft zu weniger als der Hälfte der Kosten anderer Frontier-Modelle
Bei der Lösung realer Probleme kann es schnell planen, bauen und iterieren
- Entwicklung neuer Anwendungen
- Wartung von Codebasen
- Unterstützung bei der Vorbereitung von Finanzdokumenten
In Kombination mit dem aktualisierten Antigravity-Harness wird es zu einer Ausführungs-Engine, die in anspruchsvollen Anwendungsfällen kollaborative Sub-Agenten einsetzen kann, um Probleme im großen Maßstab zu bearbeiten
Es führt unter Aufsicht mehrstufige Workflows und Coding-Aufgaben zuverlässig aus und hält dabei Frontier-Leistung aufrecht

Beispiele für den Einsatz in Antigravity und AI Studio

3.5 Flash führt in Antigravity mehrstufige Workflows aus, bei denen unstrukturierte Assets anhand dynamischer Kriterien automatisch umbenannt und klassifiziert werden
In Antigravity nutzt es zwei Agenten, um die AlphaZero-Arbeit zusammenzufassen und innerhalb von 6 Stunden ein vollständig spielbares Spiel zu programmieren
Mit dem Antigravity-Harness wandelt es komplexe Legacy-Codebasen in Next.js um
In Antigravity entwickelt es mit Sub-Agenten ein Spiel, indem es neue Stadtlandschaften generiert und schnelle Selbstverbesserungsschleifen zwischen einem Builder- und einem Player-Agenten nutzt
Aufbauend auf den starken multimodalen Fähigkeiten von Gemini 3 erzeugt 3.5 Flash reichhaltigere und interaktivere Web-UIs und Grafiken
- In AI Studio erstellt es interaktive Animationen für KI-Forschungsarbeiten
- In AI Studio wandelt es allgemeine Textbeschreibungen in interaktive Hardware um
- In AI Studio führt es mehrere Konzepte parallel aus, um ein vollständiges Branding-Konzept für eine Schul-Spendenaktion zu erstellen
- In AI Studio erzeugt es in 60 Sekunden verschiedene UX-Ansätze für einen Checkout-Flow

Einsatz in Unternehmen und für Entwickler

Die agentischen Fähigkeiten von 3.5 Flash werden bereits in Entwickler- und Unternehmens-Workflows genutzt
Bei der Entwicklung der Gemini-3.5-Modellfamilie wurden gemeinsam mit Industriepartnern repetitive Aufgaben und Punkte identifiziert, an denen Komplexität entsteht
Partner sehen bereits Effekte – von der Automatisierung wochenlanger Workflows in Banken und Fintechs bis hin zur Unterstützung von Data-Science-Teams bei der Suche nach Erkenntnissen in komplexen Datenumgebungen
Shopify
- Führt Sub-Agenten parallel aus, um langfristig komplexe Daten zu analysieren und weltweit präzisere Händler-Wachstumsprognosen zu erstellen
Macquarie Bank
- Pilotiert einen Ansatz, der komplexe Dokumente mit über 100 Seiten erschließt, relevante Informationen sucht und mit geringer Latenz verlässliche Empfehlungen erzeugt, um das Kunden-Onboarding zu beschleunigen
Salesforce
- Integriert 3.5 Flash in Agentforce, um komplexe Unternehmensaufgaben mit mehreren Sub-Agenten zu automatisieren, die Kontext beibehalten und komplexe Multi-Turn-Tool-Aufrufe ausführen
Ramp
- Unterstützt intelligenteres und verlässlicheres OCR, indem multimodales Verständnis komplexer Rechnungen mit Schlussfolgerungen aus historischen Mustern kombiniert wird
Xero
- Ermöglicht die Automatisierung repetitiver Verwaltungsaufgaben kleiner Unternehmen, indem Agenten komplexe, sich über mehrere Wochen erstreckende Workflows wie Lieferantenidentifikation und Informationssammlung für 1099-Steuerformulare autonom verwalten
Databricks
- Nutzt agentische Workflows, um Echtzeitinformationen zu überwachen und abzurufen, über große Datensätze hinweg Schlussfolgerungen zu ziehen, Probleme zu diagnostizieren und Korrekturen sowie Lösungen vorzuschlagen

Persönliche KI-Agenten und Einsatz in der Search

3.5 Flash wird zum Standardmodell in der Gemini-App und im AI Mode der Search weltweit
Auf der Google I/O wurden neue Funktionen vorgestellt, die die Agentenfähigkeiten von 3.5 Flash in den Alltag bringen
Gemini Spark ist ein persönlicher KI-Agent auf Basis von 3.5 Flash
- Läuft rund um die Uhr
- Navigiert auf Anweisung des Nutzers durch dessen digitales Leben und handelt in seinem Namen
- Wird ab heute an vertrauenswürdige Tester ausgerollt
- Soll in der kommenden Woche als Beta für Google-AI-Ultra-Abonnenten in den USA verfügbar werden
Die verbesserten agentischen Coding-Fähigkeiten von 3.5 Flash ermöglichen intelligentere Erfahrungen in der Search
- Einführung eines neuen Informationsagenten, der rund um die Uhr für Nutzer arbeitet
- Ermöglicht dynamischere generative UI-Erlebnisse
- Search nutzt 3.5 Flash, um interaktive Visualisierungen zur Erklärung des Gyroid-Musters zu erzeugen

Sicherheitsvorkehrungen

Gemini 3.5 wurde im Rahmen des Frontier Safety Framework entwickelt
Cyber- und CBRN-Sicherheitsvorkehrungen wurden verstärkt, sodass die Wahrscheinlichkeit sinkt, schädliche Inhalte zu erzeugen oder sichere Anfragen fälschlich abzulehnen
Es kommen neue und fortschrittlichere Techniken für Sicherheitstraining und Risikominderung zum Einsatz
Enthält Interpretierbarkeits-Tools, die dabei helfen, das interne Schlussfolgern der KI vor einer Antwort zu prüfen und besser zu verstehen

1 Kommentare

GN⁺ 2026-05-20

Hacker-News-Kommentare

Der Pelikan ist ziemlich plausibel: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
Als Fahrrad taugt er allerdings nicht besonders. Die Stange zwischen Pedal und Hinterrad fehlt, und auch der restliche Rahmen ist seltsam verheddert
Teuer ist es außerdem. Dieser eine Pelikan hat 13 Cent gekostet: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...
- Dieser Pelikan sieht so aus, als wäre er wegen einer Krypto-Konferenz nach Miami gekommen
- Das zeigt perfekt ein Phänomen, das ich bei Fortschritten großer Sprachmodelle wahrgenommen habe. Wenn man sie solche SVG-Verbesserungen machen lässt, beheben sie fehlende Querstreben oder abgetrennte Gliedmaßen nicht, sondern fügen einfach mehr Elemente hinzu
  Dieses Beispiel ist klar deutlich besser geworden und absurd detailreich, aber die grundlegende Form des Rahmens ist immer noch falsch. Bei Webseiten zeigt sich dasselbe Muster, indem einfach mehr Dinge wie Buttons hinzugefügt werden
  Ich habe sogar versucht, das kaputte Pelikan-SVG in ein Bildmodell zu geben und es die Defekte finden zu lassen, aber auch das konnte die kaputten Elemente nicht erkennen
- Das Kettenstrebenpaar wegzulassen ist ein häufiges Ergebnis, wenn man irgendeine Person bittet, ein Fahrrad zu zeichnen
  https://www.gianlucagimini.it/portfolio-item/velocipedia/
  
  most ended up drawing something that was pretty far off from a regular men’s bicycle
- Es fängt diese typische Google-Stimmung ziemlich gut ein: uncool, aber bemüht, für ein junges Publikum weiterhin relevant zu wirken
- Diese Sonne sieht der Sonne im Hintergrund eines anderen Top-HN-Posts über das OS-Museum sehr ähnlich: https://news.ycombinator.com/item?id=48195009
Preis pro eine Million Eingabe-/Ausgabe-Token:
Gemini 2.5 Flash: $0.30/$2.50
Gemini 3.0 Flash Preview: $0.50/$3.00
Gemini 3.5 Flash: $1.50/$9.00
Die Preisentwicklung ist interessant. Ich glaube nicht, dass ich je bei einem direkt nachfolgenden Modell derselben Größenklasse eine Verdreifachung des Preises gesehen habe, und dass es von 3 nur ein Preview gab, ist auch irgendwie witzig
3.5 Flash kostet ähnlich viel wie Gemini 2.5 Pro mit $1.25/$10
- Das unterschätzt den Kostenanstieg. 3.5 Flash verbraucht auch mehr Token. Laut artificialanalysis.ai kommt der Kostenunterschied für einen vollständigen Evaluationslauf einem realistischeren Preis näher:
  Gemini 2.5 Flash(27 Punkte): $172(1.0x)
  Gemini 2.5 Pro(35 Punkte): $649(3.8x)
  Gemini 3.0 Flash(46 Punkte): $278(1.6x)
  Gemini 3.5 Flash(55 Punkte): $1,552(9.0x oder 2.4x gegenüber 2.5 Pro)
  Das ist ein massiver Preissprung. Gegenüber Gemini 3.0 Flash sind es 5,6x
- Gut möglich, dass sie nie vorhatten, dauerhaft billige Modelle anzubieten. Das ist die natürliche Vorgehensweise: Erst entstehen Dienste auf der API, dann beginnt der Druck
  Deshalb ist eine Abstraktionsschicht ohne Provider-Bindung wirklich sinnvoll. Wenn man Kotlin nutzt, ist Koog hervorragend
- Wir brauchen noch einmal so einen DeepSeek-Moment. Sonst wird AI für normale Menschen schwer nutzbar und zu etwas, das sich nur große Unternehmen leisten können
- Falls Google dank TPU tatsächlich günstiger inferieren kann als andere, fühlt sich das wie ein Warnsignal an. Vielleicht zeigt sich, dass sich große Sprachmodelle nur schwer profitabel betreiben lassen
  Oder sie sehen gute Benchmarks und meinen deshalb, den Preis erhöhen zu können. Es wirkt aber noch nicht so, als hätten sie dafür bereits genug Marktanteil, um diese Entscheidung zu rechtfertigen
- Ist 3.5 Flash nicht als Stable und nicht als Preview gekennzeichnet? Oder lese ich das falsch?
  https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
Dass Google dieses Modell als Stable und nicht als Preview markiert hat, ist bemerkenswert. Im Vergleich zum jüngsten Veröffentlichungsmuster ist das ungewöhnlich
Zusammen mit der 3x-Preiserhöhung liest sich das eher wie die von Google gewünschte langfristige Untergrenze für Flash-Preise als wie eine spätere vorübergehende Korrektur
Ob das nur daran liegt, dass Google die Stimmung besser gelesen hat, oder ob die ganze Branche stillschweigend die Untergrenze für billige Inferenz neu festlegt, lässt sich aber noch schwer beurteilen
Create animated SVG of a frog on a boat rowing through jungle river. Single page self contained HTML page with SVG
3.5 Flash: Thinking Medium - 7516 tokens
https://gistpreview.github.io/?5c9858fd2057e678b55d563d9bff0...
3.5 Flash: Thinking High - 7280 tokens
https://gistpreview.github.io/?1cab3d70064349d08cf5952cdc165...
3.1 Pro - 28,258 tokens
https://gistpreview.github.io/?6bf3da2f80487608b9525bce53018...
3.1 hat drei Minuten lang über die Generierung nachgedacht, war aber das einzige Modell, das animierte Bewegung richtig eingebaut hat
- Gemini 3.1 Flash Lite Thinking High - 2,526 tokens:
  https://gistpreview.github.io/?3496285c5dac5ba10ebbc0b201a1a...
  Gemini 2.5 Pro - 5,325 tokens:
  https://gistpreview.github.io/?cc5e0fefeaaffecd228c16c95e736...
  Gemini 2.5 Flash - 7,556 tokens:
  https://gistpreview.github.io/?263d6058fe526a62b8f270f0620ec...
  Gemma 4 31B IT - in AI Studio 3,261 tokens:
  https://gistpreview.github.io/?858a42b96af864859a3b89508619d...
  Gemma 4 26B A4B IT - in AI Studio 4,034 tokens:
  https://gistpreview.github.io/?4adb7703897e0c6b583f9de928e4a...
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF @ Q6_K
  8112 tokens @ 52.97 TPS, 0.85s TTFT
  https://gistpreview.github.io/?7bdefff99aca89d1bc12405323bd4...
  Gesamte Sitzung: https://gist.github.com/abtinf/7bdefff99aca89d1bc12405323bd4...
  Erzeugt mit LM Studio auf einem Macbook Pro M2 Max
  https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6...
- Das ist das Ergebnis von GPT 5.5 High thinking. Das erste Resultat war nicht animiert, deshalb musste ein zweiter Folgeprompt mit "it's not animated though" hinzugefügt werden
  https://gistpreview.github.io/?557f979c82701862bc26d24f10399...
- Opus 4.7
  https://claude.ai/public/artifacts/128ebe5a-add7-406a-9bce-6...
- Die sind alle wirklich lustig. Nur 3.5 Flash Thinking High ist als einziges auf seltsame Weise verdreht. Und was bitte mit dem Hut von 3.1 Pro los ist, weiß ich auch nicht
Bin ich wirklich so alt, dass ich bei "Flash" sofort an "Try HTML5 instead" denken muss?
- Fast nichts von dem, was die Flash-Kultur so unterhaltsam gemacht hat, ist mit zu HTML5 hinübergegangen
- Flash Designer war wirklich gut. Eines der Dinge, bei denen das Web einen Rückschritt bedeutete, waren die RAD-Tools der 90er und 2000er
- Jugend von heute!
  Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
  Seit Jahren, so vielen, dass ich sie nicht einmal mehr zählen kann, muss ich immer daran denken, wenn ich das Wort "flash" höre
Wissensstand: Januar 2025
Letztes Update: Mai 2026
Dabei habe ich ein ziemlich ungutes Gefühl
- Zumindest in manchen Fällen scheint es in Richtung mehr synthetischer Daten und streng kuratierter Daten im Training zu gehen. Vor allem kleine Modelle haben schlicht keinen Platz, um die ganze Welt in einigen Dutzend bis einigen Hundert GB Modellgewichten zu speichern, daher können sie die Wissensbreite nicht extrem erweitern
  Um qualitativ hochwertigeres Reasoning zu bekommen, muss man das Training also fokussieren, und die Daten müssen sehr hochwertig und informationsdicht sein
  Wenn die Tool-Nutzung stark ist, ist es vielleicht gar nicht so wichtig, dass das Modell selbst alte Daten verwendet. Es kann aktuelle Informationen nachschlagen. Allerdings tun das die meisten Modelle derzeit nicht, wenn man sie nicht ein wenig dazu anstößt
  Soweit ich weiß, basieren alle Qwen-3-Varianten auf demselben Grundmodell und wurden nur per Fine-Tuning/Post-Training auf verschiedene Metriken optimiert. Bei Gemini 3 könnte es genauso sein, und vielleicht werden genau jetzt parallel Gemini-4-basierte Modelle mit aktuellem Wissen trainiert
- Man sollte Fakten nicht aus den Modellgewichten abrufen lassen. Man sollte sie in echten Datenquellen verankern
- Kannst du erklären, was du damit meinst?
- Ich dachte, das sei eine Entscheidung von Google gewesen
Ich nutze den google ai pro plan und habe 3.5 Flash in Antigravity ausprobiert, aber nach nur zwei Prompts war mein Kontingent aufgebraucht. Falls das kein Bug ist, ist es wirklich unbenutzbar
- Gestern oder vorgestern hat Google das AI-Pro-Kontingent von 33x der Standardnutzung auf 4x gesenkt
  Wenn man die Stimmung im Gemini-Subreddit ansieht, scheint es deutlich weniger zu sein als vorher. Ich werde AI Pro wahrscheinlich auch kündigen
  Mit diesem Update wurde auch die App kaputtgemacht. Wenn man eine Nachricht bearbeitet, stürzt die App jedes Mal ab. Und das sogar auf einem Pixel
Die 2000-Token-Uhr von Gemini 3.5 Flash ist nicht schlecht. https://clocks.brianmoore.com/
Eine Verdreifachung des Preises für fast dasselbe Modell. Dabei hieß es doch, AI werde billiger und überall einsetzbar
- Vielleicht war mit überall einsetzbar ja gemeint: wie ein Crack-Hype überall verbreitet
- Wenn man den Benchmarks glaubt, könnte man es auch als drei Viertel des Preises von 3.1 Pro sehen
Die Preise sind absurd
Gemini 3.5 Pro wird preislich vermutlich mitziehen. 12 x 5 = 60?
Es wirkt, als wolle Google, dass wir chinesische Modelle benutzen

Gemini 3.5 Flash

Vorstellung von Gemini 3.5 und Verfügbarkeit

Leistung von 3.5 Flash

Agentenaufgaben im großen Maßstab

Beispiele für den Einsatz in Antigravity und AI Studio

Einsatz in Unternehmen und für Entwickler

Shopify

Macquarie Bank

Salesforce

Ramp

Xero

Databricks

Persönliche KI-Agenten und Einsatz in der Search

Sicherheitsvorkehrungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare