- Gemini 3 Flash ist Googles neuestes KI-Modell, das Intelligenz auf Frontier-Niveau bei hoher Geschwindigkeit und niedrigen Kosten bietet
- Es bewahrt die Schlussfolgerungsfähigkeiten auf dem Niveau von Gemini 3 Pro und kombiniert sie mit der Latenz und Effizienz der Flash-Serie, um Alltagsaufgaben und agentische Workflows zu unterstützen
- In wichtigen Benchmarks wie GPQA Diamond 90,4 %, Humanity’s Last Exam 33,7 % und MMMU Pro 81,2 % übertrifft es Gemini 2.5 Pro
- Entwickler können über Google AI Studio, Gemini CLI, Antigravity, Vertex AI und weitere Angebote darauf zugreifen; allgemeine Nutzer können es kostenlos über die Gemini-App und den KI-Modus der Suche verwenden
- Es definiert das Gleichgewicht zwischen Geschwindigkeit, Kosten und Intelligenz neu und positioniert sich als skalierbares Modell sowohl für große Nutzerzahlen als auch für Unternehmensumgebungen
Überblick über Gemini 3 Flash
- Gemini 3 Flash ist eine Erweiterung der Gemini-3-Modellfamilie, ein Modell der nächsten Generation mit maximaler Geschwindigkeit und Effizienz
- Es wurde nach Gemini 3 Pro und dem Deep-Think-Modus veröffentlicht; inzwischen werden mehr als 1 Billion Tokens pro Tag über die API verarbeitet
- Es gibt bereits Berichte über vielfältige Einsatzfälle wie das Erlernen komplexer Themen, das Design interaktiver Spiele und das Verstehen multimodaler Inhalte
- Es behält die fortgeschrittenen Fähigkeiten von Gemini 3 für Schlussfolgern, visuelles Verstehen und agentisches Coding bei und kombiniert sie mit Latenz und Kosteneffizienz auf Flash-Niveau
- Es wurde als Modell entwickelt, das für höhere Genauigkeit bei Alltagsaufgaben und für agentische Workflows optimiert ist
Leistung und Benchmarks
- Gemini 3 Flash zeigt, dass Geschwindigkeit und Skalierung nicht zulasten der Intelligenz gehen müssen
- Mit GPQA Diamond 90,4 %, Humanity’s Last Exam 33,7 % (ohne Tool-Nutzung) und MMMU Pro 81,2 % erreicht es eine Leistung auf dem Niveau großer Modelle
- Gegenüber Gemini 2.5 Pro erzielt es in zahlreichen Benchmarks bessere Ergebnisse
- Es erweitert die Pareto-Grenze von Qualität, Kosten und Geschwindigkeit
- Bei komplexen Aufgaben denkt es länger nach, hält aber bei typischem Traffic mit durchschnittlich 30 % weniger Token-Verbrauch eine hohe Leistung
- Laut Artificial Analysis ist die Verarbeitung dreimal schneller als bei 2.5 Pro; die Kosten liegen bei 0,50 US-Dollar pro 1 Million Input-Tokens und 3,00 US-Dollar für Output
- Audio-Input kostet 1,00 US-Dollar pro 1 Million Tokens
Funktionen für Entwickler
- Es bietet Coding-Leistung mit niedriger Latenz, geeignet für iterative Entwicklung und hochfrequente Workflows
- Im Benchmark SWE-bench Verified erzielt es 78 % und übertrifft damit sowohl die 2.5-Serie als auch Gemini 3 Pro
- Es ist stark bei komplexen multimodalen Aufgaben wie Videoanalyse, Datenextraktion und visueller Fragebeantwortung
- Es unterstützt die Umsetzung intelligenter Anwendungen wie Echtzeit-Spielassistenz, A/B-Tests und Design-Automatisierung
- Unternehmen wie JetBrains, Bridgewater Associates und Figma setzen es bereits ein; bereitgestellt wird es über Vertex AI und Gemini Enterprise
Funktionen für allgemeine Nutzer
- Als Standardmodell der Gemini-App ersetzt es 2.5 Flash und steht Nutzern weltweit kostenlos zur Verfügung
- Durch Video- und Bildanalyse stärkt es multimodale Schlussfolgerungsfähigkeiten, etwa für die Erstellung umsetzbarer Pläne
- Beispiele: Analyse eines Golfschwungs, Erkennung von Zeichnungen oder Erstellen personalisierter Quizze auf Audio-Basis
- Es ermöglicht die Erstellung von App-Prototypen allein per Sprachbefehl, sodass auch Nichtfachleute schnell Apps umsetzen können
- Es wird auch als Standardmodell im KI-Modus der Suche eingesetzt
- Auf Basis der Schlussfolgerungsstärke von Gemini 3 Pro analysiert es den Kontext von Fragen besonders detailliert und liefert visuell aufbereitete Antworten sowie Echtzeitinformationen
- Es ist besonders stark bei mehrstufigen Zielen wie komplexer Reiseplanung oder dem Erlernen von Bildungskonzepten
Zugangswege und Rollout
- Für Entwickler: als Preview verfügbar in Google AI Studio, Gemini CLI, Antigravity, Vertex AI und Gemini Enterprise
- Für allgemeine Nutzer: schrittweiser globaler Rollout in der Gemini-App und im KI-Modus der Google-Suche
- Gemini 3 Flash erweitert gemeinsam mit Gemini 3 Pro und Deep Think die zentralen Säulen der Gemini-3-Modellfamilie
1 Kommentare
Hacker-News-Kommentare
Lasst euch nicht vom Namen „Flash“ täuschen. Dieses Modell zeigt wirklich erstaunliche Leistung
Ich habe es ein paar Wochen lang benutzt, und sowohl die Geschwindigkeit als auch die Wissensbreite sind hervorragend, sodass es deutlich effizienter ist als Claude Opus 4.5 oder GPT 5.2 Extra High. Inferenzzeit und Kosten liegen fast bei einem Zehntel
Die Antwortzeit bleibt gleich, aber die Ergebnisse sind deutlich besser. Das Preis-Leistungs-Verhältnis ist irre
Ich frage mich, mit welchem technischen Unterschied zwischen Pro- und Flash-Modellen Google so eine Leistung erreicht hat
Zur Einordnung: Ich nutze die Gemini API häufig und möchte neue Modelle jedes Mal mit internen Benchmarks testen, wenn sie erscheinen
Aber Gemini 3 Flash hat bei einer bestimmten Benchmark-Frage von mir zum ersten Mal eine Antwort gegeben, die fast richtig war
Die Stichprobe ist noch klein, aber eine Verbesserung der Genauigkeit ist klar erkennbar
Die Strategie, alles mit einem einzigen GPT 5 lösen zu wollen, ist gescheitert.
Ich teste gerade Gemini 3 Flash, und sowohl Latenz als auch Leistung sind besser als bei GPT 5 Thinking
OpenAI sollte sich statt auf Werbung auf die Entwicklung praktischer Modelle konzentrieren
Detaillierte Ergebnisse gibt es auf der Bewertungsseite von Artificial Analysis
Gut an diesem Release ist, dass es ohne Preview direkt in der Produktion einsetzbar ist
Allerdings steigen die Preise weiter
Zum Beispiel lag Gemini 1.5 Flash bei $0.075/M Input → 3.0 Flash steigt auf bis zu $0.50/M
Das Pro-Modell liegt bei etwa $2/M Input und $12/M Output
Korrektur: Auch dieses Modell ist eine Preview-Version
Für die meisten Nicht-Coding-Aufgaben könnte der Unterschied zwischen Flash und Flash Lite wichtiger sein als der zu Pro
Aber der Wettbewerb ist hart, daher dürften bald günstigere Modelle mit ähnlicher Leistung erscheinen
Es wirkt, als hätte Google bei Geschwindigkeit, Preis und Qualität wirklich alles richtig gemacht
Wenn man dazu noch die Integration mit Android und G Suite bedenkt, ist das eine enorme Kombination
Vermutlich ist das eine Strategie, um noch vor dem Hardware-Projekt von OpenAI–Jony Ive oder Apple Intelligence ein AI-first-Smartphone auf den Markt zu bringen
Zum Beispiel ist Gemini 3 Pro selbst bei einfachen
Edit-Tool-Aufrufen langsam und scheitert oftDieselbe Aufgabe erledigt Claude-Code in 5 Minuten, während Gemini 27 Minuten braucht
Tablets oder smarte Brillen scheinen mir für smol AI eher geeignet zu sein
Gemini 3 Flash (non-thinking) ist das erste Modell, das in meinem „Test zur Anzahl der Hundebeine“ 50 % erreicht hat
Als ich ein synthetisches Bild mit 5 Beinen gezeigt habe, antworteten die meisten Modelle mit 4, aber 3 Flash lag mit 5 richtig
Nur als ich Tätowierungen an den Beinen hinzugefügt habe, hat es korrekt gezählt; beim Bild ohne Tätowierungen antwortete es weiterhin mit 4
Ein halber Punkt ist dafür angemessen
Die Flash-Modelle werden zwar immer teurer, aber dieses 3.0 Flash hat ein wahnsinniges Preis-Leistungs-Verhältnis
Es erreicht 78 % in Benchmarks und übertrifft damit sowohl die 2.5-Serie als auch 3 Pro
Es ist ideal für agentisches Coding und interaktive Echtzeit-Apps
Für Nutzer von 2.5 Flash tut das Upgrade preislich vielleicht etwas weh, aber es lohnt sich
Wer etwas Günstigeres will, hat ja Flash Lite, also ist die Balance gewahrt
Schnell, klug und mit Unterstützung für 1M Kontext
Ich hoffe, dass Open-Weight-Modelle in diesem Bereich konkurrenzfähig werden
Ich habe bereits das Gefühl, dass die Kombination aus Claude Code und Gemini „gut genug“ erreicht hat
Jetzt wird es für andere Unternehmen schwer, mich noch zu überzeugen.
Mit diesem Release ist der Punkt erreicht, an dem „gut genug und günstig genug“ zusammenkommt
In CLI oder IDE-Plugin muss ich nur die Modellauswahl ändern
Die Genauigkeit war viel zu unberechenbar
Unternehmen wollen unbegrenzte Intelligenz, aber Privatnutzer brauchen dieses Niveau nicht unbedingt
Im SimpleQA-Benchmark wurden 69 % erreicht, und das ist ein Test für extrem seltenes Wissen
Wenn man bedenkt, dass Gemini 2.5 Pro bei 55 % lag, ist das ein enormer Wert
Google scheint Wissenskompression oder eine MoE-Architektur (Mixture of Experts) gut genutzt zu haben
Ich verstehe den Unterschied zwischen „Thinking“ und „Pro“ bei Gemini 3 nicht so recht
In der Beschreibung steht „Lösen komplexer Probleme“ vs. „langes Nachdenken für fortgeschrittene Mathematik und Code“
Vermutlich ist es ein Unterschied beim Thinking-Budget
thinking_levelgesteuert zu werdenGemini betreibt immer nur abfragebasiertes Denken.
Mit Schleifen und persistentem Kontext könnte es wie AGI wirken, aber das würde teuer werden
Google hat mit so etwas wahrscheinlich intern schon experimentiert
Meine größte Beschwerde ist das Fehlen einer Funktion zum Löschen von Unterhaltungen
In Business-Accounts kann man keine einzelnen Unterhaltungen löschen, sondern nur die gesamte Aufbewahrungsdauer festlegen (mindestens 3 Monate)
Für einen zahlenden Nutzer sind die Grundfunktionen angesichts der immer höheren Preise zu schwach
Ein schneller Preisvergleich nach LLM Prices zeigt:
Gemini 3 Flash kostet im Vergleich zu Pro ≤200k ein Viertel und im Vergleich zu Pro >200k ein Achtel
Bemerkenswert ist, dass der Preis auch nach 200k Tokens nicht steigt
Beim Input liegt es bei dem Doppelten von GPT-5 Mini und bei der Hälfte von Claude 4.5 Haiku