4 Punkte von GN⁺ 2025-12-18 | 1 Kommentare | Auf WhatsApp teilen
  • Gemini 3 Flash ist Googles neuestes KI-Modell, das Intelligenz auf Frontier-Niveau bei hoher Geschwindigkeit und niedrigen Kosten bietet
  • Es bewahrt die Schlussfolgerungsfähigkeiten auf dem Niveau von Gemini 3 Pro und kombiniert sie mit der Latenz und Effizienz der Flash-Serie, um Alltagsaufgaben und agentische Workflows zu unterstützen
  • In wichtigen Benchmarks wie GPQA Diamond 90,4 %, Humanity’s Last Exam 33,7 % und MMMU Pro 81,2 % übertrifft es Gemini 2.5 Pro
  • Entwickler können über Google AI Studio, Gemini CLI, Antigravity, Vertex AI und weitere Angebote darauf zugreifen; allgemeine Nutzer können es kostenlos über die Gemini-App und den KI-Modus der Suche verwenden
  • Es definiert das Gleichgewicht zwischen Geschwindigkeit, Kosten und Intelligenz neu und positioniert sich als skalierbares Modell sowohl für große Nutzerzahlen als auch für Unternehmensumgebungen

Überblick über Gemini 3 Flash

  • Gemini 3 Flash ist eine Erweiterung der Gemini-3-Modellfamilie, ein Modell der nächsten Generation mit maximaler Geschwindigkeit und Effizienz
    • Es wurde nach Gemini 3 Pro und dem Deep-Think-Modus veröffentlicht; inzwischen werden mehr als 1 Billion Tokens pro Tag über die API verarbeitet
    • Es gibt bereits Berichte über vielfältige Einsatzfälle wie das Erlernen komplexer Themen, das Design interaktiver Spiele und das Verstehen multimodaler Inhalte
  • Es behält die fortgeschrittenen Fähigkeiten von Gemini 3 für Schlussfolgern, visuelles Verstehen und agentisches Coding bei und kombiniert sie mit Latenz und Kosteneffizienz auf Flash-Niveau
  • Es wurde als Modell entwickelt, das für höhere Genauigkeit bei Alltagsaufgaben und für agentische Workflows optimiert ist

Leistung und Benchmarks

  • Gemini 3 Flash zeigt, dass Geschwindigkeit und Skalierung nicht zulasten der Intelligenz gehen müssen
    • Mit GPQA Diamond 90,4 %, Humanity’s Last Exam 33,7 % (ohne Tool-Nutzung) und MMMU Pro 81,2 % erreicht es eine Leistung auf dem Niveau großer Modelle
    • Gegenüber Gemini 2.5 Pro erzielt es in zahlreichen Benchmarks bessere Ergebnisse
  • Es erweitert die Pareto-Grenze von Qualität, Kosten und Geschwindigkeit
    • Bei komplexen Aufgaben denkt es länger nach, hält aber bei typischem Traffic mit durchschnittlich 30 % weniger Token-Verbrauch eine hohe Leistung
    Anzeige
  • Laut Artificial Analysis ist die Verarbeitung dreimal schneller als bei 2.5 Pro; die Kosten liegen bei 0,50 US-Dollar pro 1 Million Input-Tokens und 3,00 US-Dollar für Output
    • Audio-Input kostet 1,00 US-Dollar pro 1 Million Tokens

Funktionen für Entwickler

  • Es bietet Coding-Leistung mit niedriger Latenz, geeignet für iterative Entwicklung und hochfrequente Workflows
    • Im Benchmark SWE-bench Verified erzielt es 78 % und übertrifft damit sowohl die 2.5-Serie als auch Gemini 3 Pro
  • Es ist stark bei komplexen multimodalen Aufgaben wie Videoanalyse, Datenextraktion und visueller Fragebeantwortung
    • Es unterstützt die Umsetzung intelligenter Anwendungen wie Echtzeit-Spielassistenz, A/B-Tests und Design-Automatisierung
    Anzeige
  • Unternehmen wie JetBrains, Bridgewater Associates und Figma setzen es bereits ein; bereitgestellt wird es über Vertex AI und Gemini Enterprise

Funktionen für allgemeine Nutzer

  • Als Standardmodell der Gemini-App ersetzt es 2.5 Flash und steht Nutzern weltweit kostenlos zur Verfügung
    • Durch Video- und Bildanalyse stärkt es multimodale Schlussfolgerungsfähigkeiten, etwa für die Erstellung umsetzbarer Pläne
    • Beispiele: Analyse eines Golfschwungs, Erkennung von Zeichnungen oder Erstellen personalisierter Quizze auf Audio-Basis
  • Es ermöglicht die Erstellung von App-Prototypen allein per Sprachbefehl, sodass auch Nichtfachleute schnell Apps umsetzen können
  • Es wird auch als Standardmodell im KI-Modus der Suche eingesetzt
    • Auf Basis der Schlussfolgerungsstärke von Gemini 3 Pro analysiert es den Kontext von Fragen besonders detailliert und liefert visuell aufbereitete Antworten sowie Echtzeitinformationen
    • Es ist besonders stark bei mehrstufigen Zielen wie komplexer Reiseplanung oder dem Erlernen von Bildungskonzepten

Zugangswege und Rollout

  • Für Entwickler: als Preview verfügbar in Google AI Studio, Gemini CLI, Antigravity, Vertex AI und Gemini Enterprise
  • Für allgemeine Nutzer: schrittweiser globaler Rollout in der Gemini-App und im KI-Modus der Google-Suche
  • Gemini 3 Flash erweitert gemeinsam mit Gemini 3 Pro und Deep Think die zentralen Säulen der Gemini-3-Modellfamilie

1 Kommentare

 
GN⁺ 2025-12-18
Hacker-News-Kommentare
  • Lasst euch nicht vom Namen „Flash“ täuschen. Dieses Modell zeigt wirklich erstaunliche Leistung
    Ich habe es ein paar Wochen lang benutzt, und sowohl die Geschwindigkeit als auch die Wissensbreite sind hervorragend, sodass es deutlich effizienter ist als Claude Opus 4.5 oder GPT 5.2 Extra High. Inferenzzeit und Kosten liegen fast bei einem Zehntel

    • Ich habe auch Benchmarks laufen lassen, und unter 2.5 Flash, 2.5 Pro und 3.0 Flash war 3.0 Flash am besten
      Die Antwortzeit bleibt gleich, aber die Ergebnisse sind deutlich besser. Das Preis-Leistungs-Verhältnis ist irre
      Ich frage mich, mit welchem technischen Unterschied zwischen Pro- und Flash-Modellen Google so eine Leistung erreicht hat
      Zur Einordnung: Ich nutze die Gemini API häufig und möchte neue Modelle jedes Mal mit internen Benchmarks testen, wenn sie erscheinen
    • Ich bin ein GenAI-Skeptiker. Ich teste oft komplexe oder Nischenthemen, und die meisten Modelle liefern dabei miserabele Antworten
      Aber Gemini 3 Flash hat bei einer bestimmten Benchmark-Frage von mir zum ersten Mal eine Antwort gegeben, die fast richtig war
      Die Stichprobe ist noch klein, aber eine Verbesserung der Genauigkeit ist klar erkennbar
    • Ich denke, es war ein großer Fehler von OpenAI, schnelle Inferenzmodelle zu vernachlässigen
      Die Strategie, alles mit einem einzigen GPT 5 lösen zu wollen, ist gescheitert.
      Ich teste gerade Gemini 3 Flash, und sowohl Latenz als auch Leistung sind besser als bei GPT 5 Thinking
      OpenAI sollte sich statt auf Werbung auf die Entwicklung praktischer Modelle konzentrieren
    • Laut den Benchmarks ist Flash beim Thema Halluzinationen (hallucination) schwächer, insgesamt aber besser als Gemini 3 Pro oder GPT 5.1 Thinking
      Detaillierte Ergebnisse gibt es auf der Bewertungsseite von Artificial Analysis
    • Für Unternehmen, die zu stark in OpenAI investiert haben, könnte noch der Zeitpunkt kommen, an dem sie das bereuen. Nvidia ist vielleicht eine Ausnahme, aber Microsoft dürfte das weniger kümmern, weil es Modelle über Azure verkauft
  • Gut an diesem Release ist, dass es ohne Preview direkt in der Produktion einsetzbar ist
    Allerdings steigen die Preise weiter
    Zum Beispiel lag Gemini 1.5 Flash bei $0.075/M Input → 3.0 Flash steigt auf bis zu $0.50/M
    Das Pro-Modell liegt bei etwa $2/M Input und $12/M Output
    Korrektur: Auch dieses Modell ist eine Preview-Version

    • Mich würde eher interessieren, wie Leistung und Preis von Gemini 3 Flash Lite ausfallen, wenn es erscheint
      Für die meisten Nicht-Coding-Aufgaben könnte der Unterschied zwischen Flash und Flash Lite wichtiger sein als der zu Pro
    • Danke für die Preisübersicht. Gemini 3.0 ist leistungsmäßig so stark, dass das nach einer selbstbewussten Preisstrategie aussieht
      Aber der Wettbewerb ist hart, daher dürften bald günstigere Modelle mit ähnlicher Leistung erscheinen
    • Wenn man den Thinking-Modus einschaltet, ändert sich der Token-Verbrauch, daher sollte man das bei der tatsächlichen Kostenberechnung berücksichtigen
    • GPT-5 Mini kostet $0.25/M Input und $2/M Output, also halb so viel Input und 50 % günstigeren Output als Flash
  • Es wirkt, als hätte Google bei Geschwindigkeit, Preis und Qualität wirklich alles richtig gemacht
    Wenn man dazu noch die Integration mit Android und G Suite bedenkt, ist das eine enorme Kombination
    Vermutlich ist das eine Strategie, um noch vor dem Hardware-Projekt von OpenAI–Jony Ive oder Apple Intelligence ein AI-first-Smartphone auf den Markt zu bringen

    • In der Praxis hängt es aber vom Anwendungsfall ab.
      Zum Beispiel ist Gemini 3 Pro selbst bei einfachen Edit-Tool-Aufrufen langsam und scheitert oft
      Dieselbe Aufgabe erledigt Claude-Code in 5 Minuten, während Gemini 27 Minuten braucht
    • Laut einem Artikel von MacRumors soll Apple Intelligence auf Gemini basieren
    • Ich frage mich allerdings, wofür man AI auf dem Smartphone überhaupt nutzen will.
      Tablets oder smarte Brillen scheinen mir für smol AI eher geeignet zu sein
  • Gemini 3 Flash (non-thinking) ist das erste Modell, das in meinem „Test zur Anzahl der Hundebeine“ 50 % erreicht hat
    Als ich ein synthetisches Bild mit 5 Beinen gezeigt habe, antworteten die meisten Modelle mit 4, aber 3 Flash lag mit 5 richtig
    Nur als ich Tätowierungen an den Beinen hinzugefügt habe, hat es korrekt gezählt; beim Bild ohne Tätowierungen antwortete es weiterhin mit 4
    Ein halber Punkt ist dafür angemessen

  • Die Flash-Modelle werden zwar immer teurer, aber dieses 3.0 Flash hat ein wahnsinniges Preis-Leistungs-Verhältnis
    Es erreicht 78 % in Benchmarks und übertrifft damit sowohl die 2.5-Serie als auch 3 Pro
    Es ist ideal für agentisches Coding und interaktive Echtzeit-Apps

    • 3.0 Flash ist günstiger, schneller und leistungsfähiger als 2.5 Pro
      Für Nutzer von 2.5 Flash tut das Upgrade preislich vielleicht etwas weh, aber es lohnt sich
    • Ich halte es für die richtige Richtung, Flash immer stärker als Coding- und Inferenzmodell zu positionieren
      Wer etwas Günstigeres will, hat ja Flash Lite, also ist die Balance gewahrt
    • Nvidias Nemotron 3 Nano könnte eine ähnliche OSS-Alternative sein
      Schnell, klug und mit Unterstützung für 1M Kontext
    • In den Benchmarks meiner App waren nur Gemini Flash und Grok 4 Fast wirklich brauchbar
      Ich hoffe, dass Open-Weight-Modelle in diesem Bereich konkurrenzfähig werden
    • Auch laut dem Epoch.ai-Benchmark ist es besser als OpenAIs GPT 5.2
  • Ich habe bereits das Gefühl, dass die Kombination aus Claude Code und Gemini „gut genug“ erreicht hat
    Jetzt wird es für andere Unternehmen schwer, mich noch zu überzeugen.
    Mit diesem Release ist der Punkt erreicht, an dem „gut genug und günstig genug“ zusammenkommt

    • Für mich gibt es fast keine Wechselkosten, daher kann ich Modelle leicht austauschen
      In CLI oder IDE-Plugin muss ich nur die Modellauswahl ändern
    • Die aktuellen Modelle machen das Versprechen von agentischem Coding endlich realistisch
    • Frühere Modelle lagen oft daneben und waren eher Zeitverschwendung
      Die Genauigkeit war viel zu unberechenbar
    • Mit Opus 4.5 ist das Problem Software Engineering praktisch schon „gelöst“
      Unternehmen wollen unbegrenzte Intelligenz, aber Privatnutzer brauchen dieses Niveau nicht unbedingt
  • Im SimpleQA-Benchmark wurden 69 % erreicht, und das ist ein Test für extrem seltenes Wissen
    Wenn man bedenkt, dass Gemini 2.5 Pro bei 55 % lag, ist das ein enormer Wert
    Google scheint Wissenskompression oder eine MoE-Architektur (Mixture of Experts) gut genutzt zu haben

    • Die Omniscience-Bewertung von Artificial Analysis ist ebenfalls sehenswert
    • Dank der MoE-Architektur konnte man auf TPUs wohl viele Parameter nutzen und trotzdem den Durchsatz halten
    • Solche Modelle dürften sich auch hervorragend für Sprachinterfaces eignen. Wahrscheinlich wird Apple sie ebenfalls übernehmen
    • Oder intern wird per Tool-Calling (z. B. Google-Suche) bei der Inferenz nachgeholfen
    • Möglich ist auch eine Architektur mit mehr Experten und geringerer Aktivierungsrate, um die Sparsity zu erhöhen
  • Ich verstehe den Unterschied zwischen „Thinking“ und „Pro“ bei Gemini 3 nicht so recht
    In der Beschreibung steht „Lösen komplexer Probleme“ vs. „langes Nachdenken für fortgeschrittene Mathematik und Code“
    Vermutlich ist es ein Unterschied beim Thinking-Budget

    • Es wirkt wie die Struktur Fast = Flash (niedriges Thinking-Budget), Thinking = Flash (hohes Thinking-Budget), Pro = Pro (hohes Thinking-Budget)
    • In der Praxis scheint das über den Parameter thinking_level gesteuert zu werden
    • Ich frage mich, wie sich Geminis „Thinking“ von AGI unterscheidet
      Gemini betreibt immer nur abfragebasiertes Denken.
      Mit Schleifen und persistentem Kontext könnte es wie AGI wirken, aber das würde teuer werden
      Google hat mit so etwas wahrscheinlich intern schon experimentiert
  • Meine größte Beschwerde ist das Fehlen einer Funktion zum Löschen von Unterhaltungen
    In Business-Accounts kann man keine einzelnen Unterhaltungen löschen, sondern nur die gesamte Aufbewahrungsdauer festlegen (mindestens 3 Monate)
    Für einen zahlenden Nutzer sind die Grundfunktionen angesichts der immer höheren Preise zu schwach

    • Über die API kann man dieses Problem umgehen
    • Sowohl für Consumer- als auch für Enterprise-Nutzer ist die Kontrolle über Datenaufbewahrung miserabel. Unter den großen Wettbewerbern ist das am schlechtesten
  • Ein schneller Preisvergleich nach LLM Prices zeigt:
    Gemini 3 Flash kostet im Vergleich zu Pro ≤200k ein Viertel und im Vergleich zu Pro >200k ein Achtel
    Bemerkenswert ist, dass der Preis auch nach 200k Tokens nicht steigt
    Beim Input liegt es bei dem Doppelten von GPT-5 Mini und bei der Hälfte von Claude 4.5 Haiku