Gemini 3 Flash: Frontier-Intelligenz, entwickelt für Geschwindigkeit

(blog.google)

4 Punkte von GN⁺ 2025-12-18 | 1 Kommentare | Auf WhatsApp teilen

Gemini 3 Flash ist Googles neuestes KI-Modell, das Intelligenz auf Frontier-Niveau bei hoher Geschwindigkeit und niedrigen Kosten bietet
Es bewahrt die Schlussfolgerungsfähigkeiten auf dem Niveau von Gemini 3 Pro und kombiniert sie mit der Latenz und Effizienz der Flash-Serie, um Alltagsaufgaben und agentische Workflows zu unterstützen
In wichtigen Benchmarks wie GPQA Diamond 90,4 %, Humanity’s Last Exam 33,7 % und MMMU Pro 81,2 % übertrifft es Gemini 2.5 Pro
Entwickler können über Google AI Studio, Gemini CLI, Antigravity, Vertex AI und weitere Angebote darauf zugreifen; allgemeine Nutzer können es kostenlos über die Gemini-App und den KI-Modus der Suche verwenden
Es definiert das Gleichgewicht zwischen Geschwindigkeit, Kosten und Intelligenz neu und positioniert sich als skalierbares Modell sowohl für große Nutzerzahlen als auch für Unternehmensumgebungen

Überblick über Gemini 3 Flash

Gemini 3 Flash ist eine Erweiterung der Gemini-3-Modellfamilie, ein Modell der nächsten Generation mit maximaler Geschwindigkeit und Effizienz
- Es wurde nach Gemini 3 Pro und dem Deep-Think-Modus veröffentlicht; inzwischen werden mehr als 1 Billion Tokens pro Tag über die API verarbeitet
- Es gibt bereits Berichte über vielfältige Einsatzfälle wie das Erlernen komplexer Themen, das Design interaktiver Spiele und das Verstehen multimodaler Inhalte
Es behält die fortgeschrittenen Fähigkeiten von Gemini 3 für Schlussfolgern, visuelles Verstehen und agentisches Coding bei und kombiniert sie mit Latenz und Kosteneffizienz auf Flash-Niveau
Es wurde als Modell entwickelt, das für höhere Genauigkeit bei Alltagsaufgaben und für agentische Workflows optimiert ist

Leistung und Benchmarks

Gemini 3 Flash zeigt, dass Geschwindigkeit und Skalierung nicht zulasten der Intelligenz gehen müssen
- Mit GPQA Diamond 90,4 %, Humanity’s Last Exam 33,7 % (ohne Tool-Nutzung) und MMMU Pro 81,2 % erreicht es eine Leistung auf dem Niveau großer Modelle
- Gegenüber Gemini 2.5 Pro erzielt es in zahlreichen Benchmarks bessere Ergebnisse
Es erweitert die Pareto-Grenze von Qualität, Kosten und Geschwindigkeit
- Bei komplexen Aufgaben denkt es länger nach, hält aber bei typischem Traffic mit durchschnittlich 30 % weniger Token-Verbrauch eine hohe Leistung
Laut Artificial Analysis ist die Verarbeitung dreimal schneller als bei 2.5 Pro; die Kosten liegen bei 0,50 US-Dollar pro 1 Million Input-Tokens und 3,00 US-Dollar für Output
- Audio-Input kostet 1,00 US-Dollar pro 1 Million Tokens

Funktionen für Entwickler

Es bietet Coding-Leistung mit niedriger Latenz, geeignet für iterative Entwicklung und hochfrequente Workflows
- Im Benchmark SWE-bench Verified erzielt es 78 % und übertrifft damit sowohl die 2.5-Serie als auch Gemini 3 Pro
Es ist stark bei komplexen multimodalen Aufgaben wie Videoanalyse, Datenextraktion und visueller Fragebeantwortung
- Es unterstützt die Umsetzung intelligenter Anwendungen wie Echtzeit-Spielassistenz, A/B-Tests und Design-Automatisierung
Unternehmen wie JetBrains, Bridgewater Associates und Figma setzen es bereits ein; bereitgestellt wird es über Vertex AI und Gemini Enterprise

Funktionen für allgemeine Nutzer

Als Standardmodell der Gemini-App ersetzt es 2.5 Flash und steht Nutzern weltweit kostenlos zur Verfügung
- Durch Video- und Bildanalyse stärkt es multimodale Schlussfolgerungsfähigkeiten, etwa für die Erstellung umsetzbarer Pläne
- Beispiele: Analyse eines Golfschwungs, Erkennung von Zeichnungen oder Erstellen personalisierter Quizze auf Audio-Basis
Es ermöglicht die Erstellung von App-Prototypen allein per Sprachbefehl, sodass auch Nichtfachleute schnell Apps umsetzen können
Es wird auch als Standardmodell im KI-Modus der Suche eingesetzt
- Auf Basis der Schlussfolgerungsstärke von Gemini 3 Pro analysiert es den Kontext von Fragen besonders detailliert und liefert visuell aufbereitete Antworten sowie Echtzeitinformationen
- Es ist besonders stark bei mehrstufigen Zielen wie komplexer Reiseplanung oder dem Erlernen von Bildungskonzepten

Zugangswege und Rollout

Für Entwickler: als Preview verfügbar in Google AI Studio, Gemini CLI, Antigravity, Vertex AI und Gemini Enterprise
Für allgemeine Nutzer: schrittweiser globaler Rollout in der Gemini-App und im KI-Modus der Google-Suche
Gemini 3 Flash erweitert gemeinsam mit Gemini 3 Pro und Deep Think die zentralen Säulen der Gemini-3-Modellfamilie

1 Kommentare

GN⁺ 2025-12-18

Hacker-News-Kommentare

Lasst euch nicht vom Namen „Flash“ täuschen. Dieses Modell zeigt wirklich erstaunliche Leistung
Ich habe es ein paar Wochen lang benutzt, und sowohl die Geschwindigkeit als auch die Wissensbreite sind hervorragend, sodass es deutlich effizienter ist als Claude Opus 4.5 oder GPT 5.2 Extra High. Inferenzzeit und Kosten liegen fast bei einem Zehntel
- Ich habe auch Benchmarks laufen lassen, und unter 2.5 Flash, 2.5 Pro und 3.0 Flash war 3.0 Flash am besten
  Die Antwortzeit bleibt gleich, aber die Ergebnisse sind deutlich besser. Das Preis-Leistungs-Verhältnis ist irre
  Ich frage mich, mit welchem technischen Unterschied zwischen Pro- und Flash-Modellen Google so eine Leistung erreicht hat
  Zur Einordnung: Ich nutze die Gemini API häufig und möchte neue Modelle jedes Mal mit internen Benchmarks testen, wenn sie erscheinen
- Ich bin ein GenAI-Skeptiker. Ich teste oft komplexe oder Nischenthemen, und die meisten Modelle liefern dabei miserabele Antworten
  Aber Gemini 3 Flash hat bei einer bestimmten Benchmark-Frage von mir zum ersten Mal eine Antwort gegeben, die fast richtig war
  Die Stichprobe ist noch klein, aber eine Verbesserung der Genauigkeit ist klar erkennbar
- Ich denke, es war ein großer Fehler von OpenAI, schnelle Inferenzmodelle zu vernachlässigen
  Die Strategie, alles mit einem einzigen GPT 5 lösen zu wollen, ist gescheitert.
  Ich teste gerade Gemini 3 Flash, und sowohl Latenz als auch Leistung sind besser als bei GPT 5 Thinking
  OpenAI sollte sich statt auf Werbung auf die Entwicklung praktischer Modelle konzentrieren
- Laut den Benchmarks ist Flash beim Thema Halluzinationen (hallucination) schwächer, insgesamt aber besser als Gemini 3 Pro oder GPT 5.1 Thinking
  Detaillierte Ergebnisse gibt es auf der Bewertungsseite von Artificial Analysis
- Für Unternehmen, die zu stark in OpenAI investiert haben, könnte noch der Zeitpunkt kommen, an dem sie das bereuen. Nvidia ist vielleicht eine Ausnahme, aber Microsoft dürfte das weniger kümmern, weil es Modelle über Azure verkauft
Gut an diesem Release ist, dass es ohne Preview direkt in der Produktion einsetzbar ist
Allerdings steigen die Preise weiter
Zum Beispiel lag Gemini 1.5 Flash bei $0.075/M Input → 3.0 Flash steigt auf bis zu $0.50/M
Das Pro-Modell liegt bei etwa $2/M Input und $12/M Output
Korrektur: Auch dieses Modell ist eine Preview-Version
- Mich würde eher interessieren, wie Leistung und Preis von Gemini 3 Flash Lite ausfallen, wenn es erscheint
  Für die meisten Nicht-Coding-Aufgaben könnte der Unterschied zwischen Flash und Flash Lite wichtiger sein als der zu Pro
- Danke für die Preisübersicht. Gemini 3.0 ist leistungsmäßig so stark, dass das nach einer selbstbewussten Preisstrategie aussieht
  Aber der Wettbewerb ist hart, daher dürften bald günstigere Modelle mit ähnlicher Leistung erscheinen
- Wenn man den Thinking-Modus einschaltet, ändert sich der Token-Verbrauch, daher sollte man das bei der tatsächlichen Kostenberechnung berücksichtigen
- GPT-5 Mini kostet $0.25/M Input und $2/M Output, also halb so viel Input und 50 % günstigeren Output als Flash
Es wirkt, als hätte Google bei Geschwindigkeit, Preis und Qualität wirklich alles richtig gemacht
Wenn man dazu noch die Integration mit Android und G Suite bedenkt, ist das eine enorme Kombination
Vermutlich ist das eine Strategie, um noch vor dem Hardware-Projekt von OpenAI–Jony Ive oder Apple Intelligence ein AI-first-Smartphone auf den Markt zu bringen
- In der Praxis hängt es aber vom Anwendungsfall ab.
  Zum Beispiel ist Gemini 3 Pro selbst bei einfachen Edit-Tool-Aufrufen langsam und scheitert oft
  Dieselbe Aufgabe erledigt Claude-Code in 5 Minuten, während Gemini 27 Minuten braucht
- Laut einem Artikel von MacRumors soll Apple Intelligence auf Gemini basieren
- Ich frage mich allerdings, wofür man AI auf dem Smartphone überhaupt nutzen will.
  Tablets oder smarte Brillen scheinen mir für smol AI eher geeignet zu sein
Gemini 3 Flash (non-thinking) ist das erste Modell, das in meinem „Test zur Anzahl der Hundebeine“ 50 % erreicht hat
Als ich ein synthetisches Bild mit 5 Beinen gezeigt habe, antworteten die meisten Modelle mit 4, aber 3 Flash lag mit 5 richtig
Nur als ich Tätowierungen an den Beinen hinzugefügt habe, hat es korrekt gezählt; beim Bild ohne Tätowierungen antwortete es weiterhin mit 4
Ein halber Punkt ist dafür angemessen
Die Flash-Modelle werden zwar immer teurer, aber dieses 3.0 Flash hat ein wahnsinniges Preis-Leistungs-Verhältnis
Es erreicht 78 % in Benchmarks und übertrifft damit sowohl die 2.5-Serie als auch 3 Pro
Es ist ideal für agentisches Coding und interaktive Echtzeit-Apps
- 3.0 Flash ist günstiger, schneller und leistungsfähiger als 2.5 Pro
  Für Nutzer von 2.5 Flash tut das Upgrade preislich vielleicht etwas weh, aber es lohnt sich
- Ich halte es für die richtige Richtung, Flash immer stärker als Coding- und Inferenzmodell zu positionieren
  Wer etwas Günstigeres will, hat ja Flash Lite, also ist die Balance gewahrt
- Nvidias Nemotron 3 Nano könnte eine ähnliche OSS-Alternative sein
  Schnell, klug und mit Unterstützung für 1M Kontext
- In den Benchmarks meiner App waren nur Gemini Flash und Grok 4 Fast wirklich brauchbar
  Ich hoffe, dass Open-Weight-Modelle in diesem Bereich konkurrenzfähig werden
- Auch laut dem Epoch.ai-Benchmark ist es besser als OpenAIs GPT 5.2
Ich habe bereits das Gefühl, dass die Kombination aus Claude Code und Gemini „gut genug“ erreicht hat
Jetzt wird es für andere Unternehmen schwer, mich noch zu überzeugen.
Mit diesem Release ist der Punkt erreicht, an dem „gut genug und günstig genug“ zusammenkommt
- Für mich gibt es fast keine Wechselkosten, daher kann ich Modelle leicht austauschen
  In CLI oder IDE-Plugin muss ich nur die Modellauswahl ändern
- Die aktuellen Modelle machen das Versprechen von agentischem Coding endlich realistisch
- Frühere Modelle lagen oft daneben und waren eher Zeitverschwendung
  Die Genauigkeit war viel zu unberechenbar
- Mit Opus 4.5 ist das Problem Software Engineering praktisch schon „gelöst“
  Unternehmen wollen unbegrenzte Intelligenz, aber Privatnutzer brauchen dieses Niveau nicht unbedingt
Im SimpleQA-Benchmark wurden 69 % erreicht, und das ist ein Test für extrem seltenes Wissen
Wenn man bedenkt, dass Gemini 2.5 Pro bei 55 % lag, ist das ein enormer Wert
Google scheint Wissenskompression oder eine MoE-Architektur (Mixture of Experts) gut genutzt zu haben
- Die Omniscience-Bewertung von Artificial Analysis ist ebenfalls sehenswert
- Dank der MoE-Architektur konnte man auf TPUs wohl viele Parameter nutzen und trotzdem den Durchsatz halten
- Solche Modelle dürften sich auch hervorragend für Sprachinterfaces eignen. Wahrscheinlich wird Apple sie ebenfalls übernehmen
- Oder intern wird per Tool-Calling (z. B. Google-Suche) bei der Inferenz nachgeholfen
- Möglich ist auch eine Architektur mit mehr Experten und geringerer Aktivierungsrate, um die Sparsity zu erhöhen
Ich verstehe den Unterschied zwischen „Thinking“ und „Pro“ bei Gemini 3 nicht so recht
In der Beschreibung steht „Lösen komplexer Probleme“ vs. „langes Nachdenken für fortgeschrittene Mathematik und Code“
Vermutlich ist es ein Unterschied beim Thinking-Budget
- Es wirkt wie die Struktur Fast = Flash (niedriges Thinking-Budget), Thinking = Flash (hohes Thinking-Budget), Pro = Pro (hohes Thinking-Budget)
- In der Praxis scheint das über den Parameter thinking_level gesteuert zu werden
- Ich frage mich, wie sich Geminis „Thinking“ von AGI unterscheidet
  Gemini betreibt immer nur abfragebasiertes Denken.
  Mit Schleifen und persistentem Kontext könnte es wie AGI wirken, aber das würde teuer werden
  Google hat mit so etwas wahrscheinlich intern schon experimentiert
Meine größte Beschwerde ist das Fehlen einer Funktion zum Löschen von Unterhaltungen
In Business-Accounts kann man keine einzelnen Unterhaltungen löschen, sondern nur die gesamte Aufbewahrungsdauer festlegen (mindestens 3 Monate)
Für einen zahlenden Nutzer sind die Grundfunktionen angesichts der immer höheren Preise zu schwach
- Über die API kann man dieses Problem umgehen
- Sowohl für Consumer- als auch für Enterprise-Nutzer ist die Kontrolle über Datenaufbewahrung miserabel. Unter den großen Wettbewerbern ist das am schlechtesten
Ein schneller Preisvergleich nach LLM Prices zeigt:
Gemini 3 Flash kostet im Vergleich zu Pro ≤200k ein Viertel und im Vergleich zu Pro >200k ein Achtel
Bemerkenswert ist, dass der Preis auch nach 200k Tokens nicht steigt
Beim Input liegt es bei dem Doppelten von GPT-5 Mini und bei der Hälfte von Claude 4.5 Haiku

Gemini 3 Flash: Frontier-Intelligenz, entwickelt für Geschwindigkeit

Überblick über Gemini 3 Flash

Leistung und Benchmarks

Funktionen für Entwickler

Funktionen für allgemeine Nutzer

Zugangswege und Rollout

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare