Gemini 3.5 Flash
(deepmind.google)- Gemini 3.5 Flash von Google DeepMind ist ein Preview-Modell, das fortgeschrittenes Reasoning für Agenten- und Coding-Aufgaben bietet und zugleich die niedrige Latenz und Skalierbarkeit der Flash-Familie beibehält
- Zu den Kernfähigkeiten gehört multimodales Verständnis, das neben langen Workflows und iterativem Coding auch Text, Audio, Bilder, Code und Video gemeinsam verarbeitet
- Die veröffentlichten Beispiele reichen von schneller UI-Erzeugung über den Aufbau eines Spiels auf Basis eines Papers bis hin zum Entwurf einer virtuellen Stadt und unterstreichen den Einsatzbereich bei agentischen Aufgaben
- In Benchmarks erzielt es in mehreren Kategorien die höchsten Werte in der Tabelle, darunter MCP Atlas mit 83,6 %, Toolathlon mit 56,5 %, Finance Agent v2 mit 57,9 % und MMMU-Pro mit 83,6 %
- Als Eingaben werden Text, Bilder, Video, Audio und PDF unterstützt, die Ausgabe ist Text; geboten werden 1 Mio. Eingabetoken und 64k Ausgabetoken sowie Function Calling, strukturierte Ausgaben, Such-Tools und Code-Ausführung
Einordnung von Gemini 3.5 Flash
- Gemini 3.5 Flash ist ein Modell, das fortgeschrittenes Reasoning bei „Latenz und Skalierbarkeit auf Flash-Niveau“ bietet
- Einsatzbereiche sind Agenten, Coding, Alltagsaufgaben, fortgeschrittenes Reasoning, multimodales Verständnis und Verständnis langer Kontexte
- Der Modellstatus ist Preview
Aufgaben mit Flash-Latenz als Ziel
- Die zentrale Ausrichtung ist, hohe Geschwindigkeit und Intelligenz zugleich zu bieten
- Es soll sich als Modell positionieren, das Geschwindigkeit und Skalierbarkeit beibehält, ohne Intelligenz zu opfern
- Es verarbeitet Long-Range-Reasoning und iterative Coding-Aufgaben
- Es unterstützt multimodales Verständnis über Text, Audio, Bilder, Code und Video hinweg
Beispiele für Agenten-Einsatz
- Es werden mehrere Aufgabenbeispiele präsentiert, die schnelle Agentenfähigkeiten zeigen
- Erzeugung von 6 Zahlungs-UI-Optionen in weniger als 60 Sekunden
- Erzeugung von 64 Fraktal-Variationen mit hoher Geschwindigkeit
- Autonomer Aufbau eines intelligenten Spiels auf Basis des AlphaGo-Papers als Eingabe
- Koordination mehrerer Workflows, die mit minimaler Eingabe eine Marke für eine Spendenveranstaltung erstellen und verbessern
- Umwandlung einer Textbeschreibung in eine vollständige interaktive HTML-Komponente
- Mehrere Agenten erstellen mithilfe der Strudel-Musikbibliothek einen Song
- Koordination eines Teams spezialisierter Agenten, um eine virtuelle Stadt zu entwerfen und aufzubauen
- Automatisches Umbenennen und Strukturieren eines unübersichtlichen Datensatzes
- Einsatz von Agenten, um ein Spiel in Echtzeit kontinuierlich zu verbessern
Kundenbeispiele und Leistungsverbesserungen
- Armadin gibt an, dass Geminis neuestes Flash-Modell in Long-Range-Multiturn-Cyber-Benchmarks 42 % über Flash 3 liegt und die Tokeneffizienz um 68 % verbessert wurde
- Im Enterprise-Work-Evaluationsset von Box lag Gemini 3.5 Flash 19,6 % über Gemini 3 Flash
- Die Genauigkeit bei Datenextraktion und Berechnungen für Kunden aus den Life Sciences stieg um 96,4 %
- Die Genauigkeit bei der Erstellung von Finanzberichten auf Basis strukturierter Daten für Financial Services stieg um 46,7 %
- JetBrains’ Junie bewertet, dass Gemini 3.5 Flash eine Coding- und Reasoning-Qualität nahe Gemini Pro bietet und zugleich die Geschwindigkeits- und Kosteneigenschaften von Flash beibehält
- Gegenüber der vorherigen Flash-Generation verbesserte sich die Coding-Leistung bei niedrigem Reasoning-Niveau um 10–20 %
Benchmark-Ergebnisse
- Gemini 3.5 Flash wird stark als Modell für Agenten-Workflows hervorgehoben
- Coding-Benchmarks
- Terminal-bench 2.1 Agentic terminal coding: 76,2 %
- SWE-Bench Pro Public: 55,1 %
- Benchmarks für Agenten- und Tool-Nutzung
- MCP Atlas: 83,6 %, höchster Wert in der Tabelle
- Toolathlon: 56,5 %, höchster Wert in der Tabelle
- UI-Steuerung und Fachaufgaben
- OSWorld-Verified: 78,4 %
- Finance Agent v2: 57,9 %, höchster Wert in der Tabelle
- GDPval-AA Elo: 1656
- Multimodale Benchmarks
- CharXiv Reasoning: 84,2 %, höchster Wert in der Tabelle
- MMMU-Pro: 83,6 %, höchster Wert in der Tabelle
- Blueprint-Bench 2: 33,6 %
- Lange Kontexte und Reasoning
- MRCR v2 128k Durchschnitt: 77,3 %
- MRCR v2 1M pointwise: 26,6 %, höher als die vergleichbaren Gemini 3 Flash und Gemini 3.1 Pro
- Humanity’s Last Exam: 40,2 %
- ARC-AGI-2: 72,1 %
- Details zur Evaluationsmethode finden sich unter Gemini 3.5 Flash evals methodology
Modellinformationen und verfügbare Umgebungen
- Als Eingaben werden Text, Bilder, Video, Audio und PDF unterstützt
- Die Ausgabe ist Text
- Kontext und Wissensstand
- Eingabetoken: 1 Mio.
- Ausgabetoken: 64k
- Wissens-Cutoff: Januar 2025
- Funktionen zur Tool-Nutzung
- Function Calling
- Strukturierte Ausgabe
- Suche als Tool verwenden
- Code-Ausführung
- Verfügbare Umgebungen sind Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity und Android Studio
- Die Entwicklerdokumentation steht unter Gemini API models documentation bereit
- Die Model Card steht unter Gemini 3.5 Flash model card bereit
1 Kommentare
Meinungen auf Hacker News
pipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Verglichen mit einem eigenen Aufbau ist das nicht schlecht, aber bei den Frontier-Modellen war Geminis zentrales Unterscheidungsmerkmal native Multimodalität. Jetzt, da GPT-4o da ist, weiß ich nicht recht, warum eine Organisation, die nicht an GCP gebunden ist, Gemini wählen sollte. Wenn man nicht ganze Bücher oder Filme auf einmal verarbeitet, reichen die 128k Kontext von GPT-4o auch aus; ich frage mich, ob es wirklich Teams gibt, die Aufgaben in echtem Umfang erledigen, die nicht mehr funktionieren, wenn man von 1 Million auf 100.000 reduziert
Die Stärke von Gemini liegt nicht darin, Logikrätsel zu lösen, sondern in der Kontextlänge. Wenn man für eine Prüfung lernt, legt man einfach das ganze Lehrbuch in den Chat; wenn man für ein altes Testsystem eine tote Sprache verwenden muss, zu der es im Internet keine Informationen gibt, legt man das 1.300-seitige Referenzhandbuch hinein und fragt danach
Ich habe versucht, Gemini 1.5 Pro in mehrere Workflows einzubauen, aber es war viel zu schlecht. Besonders bei Video- oder Audioeingaben waren die Halluzinationen kaum zu glauben. Ich weiß nicht, ob ein kleines multimodales Modell mit vielen Halluzinationen für die meisten Unternehmen praktikable Use Cases hat; ohne Zuverlässigkeit ist es einfach ein Spielzeug
Selbst verglichen mit OpenAIs günstigstem multimodalem Modell GPT-4o kostet GPT-3.5-Turbo ein Zehntel von GPT-4o, nämlich 0,5 $ pro 1 Million Eingabetokens, 1,50 $ pro 1 Million Ausgabetokens, bei einem Kontextfenster von 16K. Gemini 1.5 Flash kostet bei Prompts unter 128K 0,35 $ pro 1 Million Eingabetokens und 0,53 $ pro 1 Million Ausgabetokens. Für multimodale Aufgaben, die keine Intelligenz auf GPT-4-Niveau benötigen, besonders bei der Dokumentenverarbeitung, sieht Gemini Flash fast nach 95 % Kostenersparnis aus
Man muss nicht zweimal nachdenken, bevor man Kontext hineingibt, und auch keine Umgehungslösungen bauen, um Kontextüberschreitungen zu behandeln. Wenn die meisten Use Cases eher Text als Multimodalität betreffen, scheint der Vorteil ziemlich klar
Nach fünf oder sechs Versuchen habe ich aufgegeben; ich hoffe, diese Version ist schneller und stabiler
Intuitiv stößt man bei längeren Kontexten irgendwann an die Grenze, wie viel Verständnis sich in einem einzelnen Punkt im Vektorraum unterbringen lässt, und vermutlich braucht man bessere Architekturen, um die relevanten Teile aus dem Kontext auszuwählen
Ich weiß nicht, ob das öffentlich bekannt ist, aber die Größe der Embedding-Dimensionen ist eine Architekturentscheidung. Für mich ist das eher eine Frage von Design- und Ressourcenbeschränkungen als eine prinzipielle Grenze
Falls es einschlägige Artikel oder weiterführende Lektüre gibt, wären Empfehlungen schön
Die Anzahl der Heads oder die Größe der Key-Vektoren kann man jederzeit erhöhen
Aber es enthält nur einige der Figuren, die Anmerkungen sind dürftig, und es hat ungefähr 20 $ gekostet. Wenn man es zehnmal ausprobiert, ist es gerade gut genug, um einen ein paar Mal hereinzulegen
Aber wir sollten nicht zulassen, dass das die Zukunft wird
Wenn man bei Google die Modellliste über die API selbst auflistet, scheint es ungefähr zehn Modelle über einen Pfad zu geben, den die Google-Cloud-Konsole Generative Language API nennt und die Dokumentation Gemini API. Es gibt mehr Modellnamen als zehn, aber einige Modelle haben mehrere Aliase.
Von diesen haben nur drei Preisinformationen auf der Preis-Dokumentationsseite der Gemini API, und zwei davon sind Previews, sodass die Preise erst in Zukunft gelten. In der Generative Language API der Konsole wird nur für dasselbe eine Modell, das nicht Preview ist, von den drei Modellen der Dokumentationsseite ein Preis angezeigt. In der Cloud-SKU-Liste gibt es keine Generative Language API, und zwar eine Gemini API, aber ebenfalls nur dasselbe eine Modell. In der Cloud Price List, auf die die Konsolenseite als „aktuelle Preise“ verlinkt, gibt es weder Generative Language API noch Gemini API. Ich verstehe nicht, warum es so viele unterschiedliche Einträge gibt
Ich bin wirklich gespannt, wie sich zeichenbasierte LLMs im Vergleich schlagen würden. Bei 2 Millionen Kontext wird der Rechenengpass weniger deutlich. Allerdings weiß ich nicht genau, welche Rolle die Vokabulargröße spielt. Da Embeddings bereits einen großen Teil des Wissens enthalten, könnte ein großes Vokabular wichtig sein. Umgekehrt ließen sich mit einem zeichenbasierten Vokabular vermutlich viele Probleme wie Glitch-Tokens, Arithmetik oder Reime lösen. Auch die korrekte Implementierung und das Training von Subword-Tokenizern wirken ziemlich komplex; auf Zeichenebene sollte das sehr einfach sein.
Auf Inferenz-Servern geht ein erheblicher Teil des Speichers in den KV-Cache, und um Embeddings per Attention aufzubauen, müssten deutlich mehr Tokens miteinander in Beziehung gesetzt werden, wobei jedes einzelne Token weniger „Bedeutung“ trägt. Vielleicht kommen wir irgendwann an diesen Punkt. Letztlich werden wir multimodale LLMs brauchen, die Bilder und Töne bis hinunter auf Pixel- und Frequenzebene verstehen, und bei Text will man vermutlich am Ende ebenfalls dorthin.
Zumindest im Allgemeinen würde ich das so sehen. Dieser Ansatz dürfte eine höhere Qualität liefern als beim lateinischen Alphabet. Ich frage mich, ob man das schon testen könnte, indem man vergleicht, wie LLMs Englisch und Chinesisch verarbeiten.
Zweitens wandeln diese Modelle Tokens, sehr grob gesagt, in der Embedding-Schicht in eine „durchschnittliche Bedeutung“ um, die Attention-Schichten kombinieren Bedeutungen, und die Feedforward-Schichten passen die aktuelle Bedeutungskombination an etwas wie gelernte Archetypen oder Prototypen an. Wenn man von Wortstücken auf Zeichen heruntergeht, wird all das verworrener. Schon die Frage, was die durchschnittliche Bedeutung von „a“ ist, ist zum Beispiel unklar; deshalb glaube ich, dass es noch nicht genügend Techniken gibt, um zeichenbasierte Modelle gut zu trainieren.
Reine Vermutung, weil ich mich damit nicht gut auskenne, aber vielleicht liegt es daran, dass Transformer keine universellen Mustererkenner sind, sondern nur Muster auf einer bestimmten Granularitätsebene erfassen können.
„ChatGPT“ ist ein ziemlich sperriger und komplizierter Name, und OpenAI wirkt wie eine gesichtslose Organisation. Das kann sich natürlich noch ändern, aber zu diesem Zeitpunkt wirkt es ziemlich spät. Beim Markteintritt hätten sie sicher genug Geld gehabt, um kreativer zu sein.
„GPT4o“, ernsthaft? Sogar „GPT4 Omni“ wäre im Gespräch einfacher, und genau das bedeutet das „o“ ja auch. Sie unterschätzen massiv, wie viele normale Nutzer es gibt.
GPT-4 turbo(gpt-4-0125-preview) 31,0, GPT-4o 30,7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29,7, GPT-4 turbo(gpt-4-1106-preview) 28,8, Claude 3 Opus 27,3, GPT-4(0613) 26,1, Llama 3 Instruct 70B 24,0, Gemini Pro 1.5 19,9, Mistral Large 17,7, Gemini 1.5 Flash 15,3, Mistral Medium 15,0, Gemini Pro 1.0 14,2, Llama 3 Instruct 8B 12,3, Mixtral-8x22B Instruct 12,2
Laut https://ai.google.dev/pricing scheint es etwas günstiger als gpt3.5-turbo bepreist zu sein, aber wie es in der Praxis abschneidet, ist nicht ersichtlich.
Ich habe Gemini Pro und ChatGPT 4 über mehrere Monate hinweg für praktische Programmierung, Systemarchitektur und gelegentliche allgemeine Fragen nebeneinander genutzt, und ChatGPT war mindestens 80 % nützlicher. Gemini lag entweder falsch oder brauchte so weitschweifige Umwege, um zu einer brauchbaren Antwort zu kommen, dass es sich nicht lohnte. Was ich brauchte, war nicht mehr Geschwindigkeit. Vielleicht ist es inzwischen „klüger“, also nützlicher, geworden.