Gemini 3.5 Flash

(deepmind.google)

2 Punkte von GN⁺ 2024-05-15 | 1 Kommentare | Auf WhatsApp teilen

Gemini 3.5 Flash von Google DeepMind ist ein Preview-Modell, das fortgeschrittenes Reasoning für Agenten- und Coding-Aufgaben bietet und zugleich die niedrige Latenz und Skalierbarkeit der Flash-Familie beibehält
Zu den Kernfähigkeiten gehört multimodales Verständnis, das neben langen Workflows und iterativem Coding auch Text, Audio, Bilder, Code und Video gemeinsam verarbeitet
Die veröffentlichten Beispiele reichen von schneller UI-Erzeugung über den Aufbau eines Spiels auf Basis eines Papers bis hin zum Entwurf einer virtuellen Stadt und unterstreichen den Einsatzbereich bei agentischen Aufgaben
In Benchmarks erzielt es in mehreren Kategorien die höchsten Werte in der Tabelle, darunter MCP Atlas mit 83,6 %, Toolathlon mit 56,5 %, Finance Agent v2 mit 57,9 % und MMMU-Pro mit 83,6 %
Als Eingaben werden Text, Bilder, Video, Audio und PDF unterstützt, die Ausgabe ist Text; geboten werden 1 Mio. Eingabetoken und 64k Ausgabetoken sowie Function Calling, strukturierte Ausgaben, Such-Tools und Code-Ausführung

Einordnung von Gemini 3.5 Flash

Gemini 3.5 Flash ist ein Modell, das fortgeschrittenes Reasoning bei „Latenz und Skalierbarkeit auf Flash-Niveau“ bietet
Einsatzbereiche sind Agenten, Coding, Alltagsaufgaben, fortgeschrittenes Reasoning, multimodales Verständnis und Verständnis langer Kontexte
Der Modellstatus ist Preview

Aufgaben mit Flash-Latenz als Ziel

Die zentrale Ausrichtung ist, hohe Geschwindigkeit und Intelligenz zugleich zu bieten
- Es soll sich als Modell positionieren, das Geschwindigkeit und Skalierbarkeit beibehält, ohne Intelligenz zu opfern
Es verarbeitet Long-Range-Reasoning und iterative Coding-Aufgaben
Es unterstützt multimodales Verständnis über Text, Audio, Bilder, Code und Video hinweg

Beispiele für Agenten-Einsatz

Es werden mehrere Aufgabenbeispiele präsentiert, die schnelle Agentenfähigkeiten zeigen
- Erzeugung von 6 Zahlungs-UI-Optionen in weniger als 60 Sekunden
- Erzeugung von 64 Fraktal-Variationen mit hoher Geschwindigkeit
- Autonomer Aufbau eines intelligenten Spiels auf Basis des AlphaGo-Papers als Eingabe
- Koordination mehrerer Workflows, die mit minimaler Eingabe eine Marke für eine Spendenveranstaltung erstellen und verbessern
- Umwandlung einer Textbeschreibung in eine vollständige interaktive HTML-Komponente
- Mehrere Agenten erstellen mithilfe der Strudel-Musikbibliothek einen Song
- Koordination eines Teams spezialisierter Agenten, um eine virtuelle Stadt zu entwerfen und aufzubauen
- Automatisches Umbenennen und Strukturieren eines unübersichtlichen Datensatzes
- Einsatz von Agenten, um ein Spiel in Echtzeit kontinuierlich zu verbessern

Kundenbeispiele und Leistungsverbesserungen

Armadin gibt an, dass Geminis neuestes Flash-Modell in Long-Range-Multiturn-Cyber-Benchmarks 42 % über Flash 3 liegt und die Tokeneffizienz um 68 % verbessert wurde
Im Enterprise-Work-Evaluationsset von Box lag Gemini 3.5 Flash 19,6 % über Gemini 3 Flash
- Die Genauigkeit bei Datenextraktion und Berechnungen für Kunden aus den Life Sciences stieg um 96,4 %
- Die Genauigkeit bei der Erstellung von Finanzberichten auf Basis strukturierter Daten für Financial Services stieg um 46,7 %
JetBrains’ Junie bewertet, dass Gemini 3.5 Flash eine Coding- und Reasoning-Qualität nahe Gemini Pro bietet und zugleich die Geschwindigkeits- und Kosteneigenschaften von Flash beibehält
- Gegenüber der vorherigen Flash-Generation verbesserte sich die Coding-Leistung bei niedrigem Reasoning-Niveau um 10–20 %

Benchmark-Ergebnisse

Gemini 3.5 Flash wird stark als Modell für Agenten-Workflows hervorgehoben
Coding-Benchmarks
- Terminal-bench 2.1 Agentic terminal coding: 76,2 %
- SWE-Bench Pro Public: 55,1 %
Benchmarks für Agenten- und Tool-Nutzung
- MCP Atlas: 83,6 %, höchster Wert in der Tabelle
- Toolathlon: 56,5 %, höchster Wert in der Tabelle
UI-Steuerung und Fachaufgaben
- OSWorld-Verified: 78,4 %
- Finance Agent v2: 57,9 %, höchster Wert in der Tabelle
- GDPval-AA Elo: 1656
Multimodale Benchmarks
- CharXiv Reasoning: 84,2 %, höchster Wert in der Tabelle
- MMMU-Pro: 83,6 %, höchster Wert in der Tabelle
- Blueprint-Bench 2: 33,6 %
Lange Kontexte und Reasoning
- MRCR v2 128k Durchschnitt: 77,3 %
- MRCR v2 1M pointwise: 26,6 %, höher als die vergleichbaren Gemini 3 Flash und Gemini 3.1 Pro
- Humanity’s Last Exam: 40,2 %
- ARC-AGI-2: 72,1 %
Details zur Evaluationsmethode finden sich unter Gemini 3.5 Flash evals methodology

Modellinformationen und verfügbare Umgebungen

Als Eingaben werden Text, Bilder, Video, Audio und PDF unterstützt
Die Ausgabe ist Text
Kontext und Wissensstand
- Eingabetoken: 1 Mio.
- Ausgabetoken: 64k
- Wissens-Cutoff: Januar 2025
Funktionen zur Tool-Nutzung
- Function Calling
- Strukturierte Ausgabe
- Suche als Tool verwenden
- Code-Ausführung
Verfügbare Umgebungen sind Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity und Android Studio
Die Entwicklerdokumentation steht unter Gemini API models documentation bereit
Die Model Card steht unter Gemini 3.5 Flash model card bereit

1 Kommentare

GN⁺ 2024-05-15

Meinungen auf Hacker News

Ich habe das llm-gemini-Plugin aktualisiert, sodass es CLI-Zugriff auf Gemini Flash bietet
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Betrachtet man Benchmarks wie MMLU, scheint das im Grunde zu bedeuten: Qualität auf dem Niveau von Llama 3 70B, eine Latenz bis zum ersten Token von unter einer Sekunde, nicht auf GPT-4-/Opus-Niveau, aber ein Modell mit nativer Multimodalität und 1 Million Kontext
Verglichen mit einem eigenen Aufbau ist das nicht schlecht, aber bei den Frontier-Modellen war Geminis zentrales Unterscheidungsmerkmal native Multimodalität. Jetzt, da GPT-4o da ist, weiß ich nicht recht, warum eine Organisation, die nicht an GCP gebunden ist, Gemini wählen sollte. Wenn man nicht ganze Bücher oder Filme auf einmal verarbeitet, reichen die 128k Kontext von GPT-4o auch aus; ich frage mich, ob es wirklich Teams gibt, die Aufgaben in echtem Umfang erledigen, die nicht mehr funktionieren, wenn man von 1 Million auf 100.000 reduziert
- Mit 1 Million Tokens kann man 2.000 Seiten Dokumente ins Kontextfenster legen, bevor man den Chat überhaupt beginnt
  Die Stärke von Gemini liegt nicht darin, Logikrätsel zu lösen, sondern in der Kontextlänge. Wenn man für eine Prüfung lernt, legt man einfach das ganze Lehrbuch in den Chat; wenn man für ein altes Testsystem eine tote Sprache verwenden muss, zu der es im Internet keine Informationen gibt, legt man das 1.300-seitige Referenzhandbuch hinein und fragt danach
- Ich glaube nicht, dass das Llama-3-70B-Qualität sein kann
  Ich habe versucht, Gemini 1.5 Pro in mehrere Workflows einzubauen, aber es war viel zu schlecht. Besonders bei Video- oder Audioeingaben waren die Halluzinationen kaum zu glauben. Ich weiß nicht, ob ein kleines multimodales Modell mit vielen Halluzinationen für die meisten Unternehmen praktikable Use Cases hat; ohne Zuverlässigkeit ist es einfach ein Spielzeug
- Der Grund für Organisationen, die nicht an GCP gebunden sind, Gemini zu wählen, ist der Preis. Besonders bei multimodalen Aufgaben, für die man keine GPT-4-Qualität braucht
  Selbst verglichen mit OpenAIs günstigstem multimodalem Modell GPT-4o kostet GPT-3.5-Turbo ein Zehntel von GPT-4o, nämlich 0,5 $ pro 1 Million Eingabetokens, 1,50 $ pro 1 Million Ausgabetokens, bei einem Kontextfenster von 16K. Gemini 1.5 Flash kostet bei Prompts unter 128K 0,35 $ pro 1 Million Eingabetokens und 0,53 $ pro 1 Million Ausgabetokens. Für multimodale Aufgaben, die keine Intelligenz auf GPT-4-Niveau benötigen, besonders bei der Dokumentenverarbeitung, sieht Gemini Flash fast nach 95 % Kostenersparnis aus
- Das ist ähnlich wie zu fragen, warum man 1 GB Gmail braucht, wenn ein 50-MB-Yahoo-Konto doch ausreichend aussieht
  Man muss nicht zweimal nachdenken, bevor man Kontext hineingibt, und auch keine Umgehungslösungen bauen, um Kontextüberschreitungen zu behandeln. Wenn die meisten Use Cases eher Text als Multimodalität betreffen, scheint der Vorteil ziemlich klar
- Vor ein paar Monaten habe ich versucht, mit Gemini 1 Million Tokens zu nutzen; es ist abgestürzt oder hat sehr langsam geantwortet und ist am Ende doch abgestürzt
  Nach fünf oder sechs Versuchen habe ich aufgegeben; ich hoffe, diese Version ist schneller und stabiler
Ich sehe den standardmäßigen Kontext von 1 Million Tokens hier als großes Feature, aber wir brauchen bessere Benchmarks, um zu messen, was das tatsächlich bedeutet
Intuitiv stößt man bei längeren Kontexten irgendwann an die Grenze, wie viel Verständnis sich in einem einzelnen Punkt im Vektorraum unterbringen lässt, und vermutlich braucht man bessere Architekturen, um die relevanten Teile aus dem Kontext auszuwählen
- Wenn es um den Produktionseinsatz geht, ist Multimodalität bei einem Modell, das pro Token nur 4–7 % von OpenAIs günstigstem multimodalem Modell kostet, ein wichtiges Feature – nicht bloß eine wirtschaftlich untragbare Demo
- Ich weiß nicht, in welcher Dimension des Vektorraums es eine Grenze eines einzelnen Punkts geben soll
  Ich weiß nicht, ob das öffentlich bekannt ist, aber die Größe der Embedding-Dimensionen ist eine Architekturentscheidung. Für mich ist das eher eine Frage von Design- und Ressourcenbeschränkungen als eine prinzipielle Grenze
- Ich frage mich, ob jemand so erklären kann, dass auch Leute mit grobem Verständnis von Vektoren und Vektordatenbanken es nachvollziehen können, was es heißt, Verständnis in einem einzelnen Punkt im Vektorraum unterzubringen
  Falls es einschlägige Artikel oder weiterführende Lektüre gibt, wären Empfehlungen schön
- Wir haben es mit Multi-Head Attention zu tun, daher gibt es pro Token mehrere Punkte
  Die Anzahl der Heads oder die Größe der Key-Vektoren kann man jederzeit erhöhen
- In der Praxis ist es nicht besonders gut. Man kann überzeugend wirkende Demos bauen, etwa: „Ich habe Harry Potter Band 6,5 hineingegeben, und es hat eine SVG-Karte erstellt, die die Figuren mit Anmerkungen verbindet“
  Aber es enthält nur einige der Figuren, die Anmerkungen sind dürftig, und es hat ungefähr 20 $ gekostet. Wenn man es zehnmal ausprobiert, ist es gerade gut genug, um einen ein paar Mal hereinzulegen
Ein leichtgewichtiges Modell, das man nur in der Cloud nutzen kann – interessant. Diese großen Tech-Konzerne sind wirklich entschlossen, sogar die AI-Nutzung zu besitzen
Aber wir sollten nicht zulassen, dass das die Zukunft wird
Ein Punkt, in dem OpenAI besser ist als Google: Sie veröffentlichen tatsächlich API-Preise und benennen Dinge relativ konsistent
Wenn man bei Google die Modellliste über die API selbst auflistet, scheint es ungefähr zehn Modelle über einen Pfad zu geben, den die Google-Cloud-Konsole Generative Language API nennt und die Dokumentation Gemini API. Es gibt mehr Modellnamen als zehn, aber einige Modelle haben mehrere Aliase.
Von diesen haben nur drei Preisinformationen auf der Preis-Dokumentationsseite der Gemini API, und zwei davon sind Previews, sodass die Preise erst in Zukunft gelten. In der Generative Language API der Konsole wird nur für dasselbe eine Modell, das nicht Preview ist, von den drei Modellen der Dokumentationsseite ein Preis angezeigt. In der Cloud-SKU-Liste gibt es keine Generative Language API, und zwar eine Gemini API, aber ebenfalls nur dasselbe eine Modell. In der Cloud Price List, auf die die Konsolenseite als „aktuelle Preise“ verlinkt, gibt es weder Generative Language API noch Gemini API. Ich verstehe nicht, warum es so viele unterschiedliche Einträge gibt
Da die Kontextlänge für die meisten Aufgaben inzwischen großzügig genug zu sein scheint, frage ich mich, warum immer noch Subword-Tokens verwendet werden

Ich bin wirklich gespannt, wie sich zeichenbasierte LLMs im Vergleich schlagen würden. Bei 2 Millionen Kontext wird der Rechenengpass weniger deutlich. Allerdings weiß ich nicht genau, welche Rolle die Vokabulargröße spielt. Da Embeddings bereits einen großen Teil des Wissens enthalten, könnte ein großes Vokabular wichtig sein. Umgekehrt ließen sich mit einem zeichenbasierten Vokabular vermutlich viele Probleme wie Glitch-Tokens, Arithmetik oder Reime lösen. Auch die korrekte Implementierung und das Training von Subword-Tokenizern wirken ziemlich komplex; auf Zeichenebene sollte das sehr einfach sein.

Der Attention-Mechanismus lernt deutlich effizienter, wenn er größeren, bedeutungsvolleren Tokens Aufmerksamkeit schenken kann
Auf Inferenz-Servern geht ein erheblicher Teil des Speichers in den KV-Cache, und um Embeddings per Attention aufzubauen, müssten deutlich mehr Tokens miteinander in Beziehung gesetzt werden, wobei jedes einzelne Token weniger „Bedeutung“ trägt. Vielleicht kommen wir irgendwann an diesen Punkt. Letztlich werden wir multimodale LLMs brauchen, die Bilder und Töne bis hinunter auf Pixel- und Frequenzebene verstehen, und bei Text will man vermutlich am Ende ebenfalls dorthin.
Zeichen sind keine semantischen Bausteine von Wörtern; meistens übernehmen Silben diese Rolle
Zumindest im Allgemeinen würde ich das so sehen. Dieser Ansatz dürfte eine höhere Qualität liefern als beim lateinischen Alphabet. Ich frage mich, ob man das schon testen könnte, indem man vergleicht, wie LLMs Englisch und Chinesisch verarbeiten.
Ich sehe zwei große Probleme. Erstens verschlechtert sich die Latenz, weil deutlich mehr Output sequenziell erzeugt werden muss
Zweitens wandeln diese Modelle Tokens, sehr grob gesagt, in der Embedding-Schicht in eine „durchschnittliche Bedeutung“ um, die Attention-Schichten kombinieren Bedeutungen, und die Feedforward-Schichten passen die aktuelle Bedeutungskombination an etwas wie gelernte Archetypen oder Prototypen an. Wenn man von Wortstücken auf Zeichen heruntergeht, wird all das verworrener. Schon die Frage, was die durchschnittliche Bedeutung von „a“ ist, ist zum Beispiel unklar; deshalb glaube ich, dass es noch nicht genügend Techniken gibt, um zeichenbasierte Modelle gut zu trainieren.
Bei KI-Musikgenerierung führen große Vokabulargrößen im Bereich von 10^6 zu deutlich besseren Ergebnissen
Reine Vermutung, weil ich mich damit nicht gut auskenne, aber vielleicht liegt es daran, dass Transformer keine universellen Mustererkenner sind, sondern nur Muster auf einer bestimmten Granularitätsebene erfassen können.
Google hat eindeutig das bessere Branding-Team. Namen wie Gemini und Gems gefallen mir
„ChatGPT“ ist ein ziemlich sperriger und komplizierter Name, und OpenAI wirkt wie eine gesichtslose Organisation. Das kann sich natürlich noch ändern, aber zu diesem Zeitpunkt wirkt es ziemlich spät. Beim Markteintritt hätten sie sicher genug Geld gehabt, um kreativer zu sein.
- „ChatGPT“ ist ein Name wie „Google“. Ich glaube nicht, dass „Gemini“ ihn ersetzen kann.
- OpenAI braucht dringend Marketing-Beratung
  „GPT4o“, ernsthaft? Sogar „GPT4 Omni“ wäre im Gespräch einfacher, und genau das bedeutet das „o“ ja auch. Sie unterschätzen massiv, wie viele normale Nutzer es gibt.
Im NYT-Connections-Benchmark erreicht Gemini 1.5 Flash 15,3 Punkte
GPT-4 turbo(gpt-4-0125-preview) 31,0, GPT-4o 30,7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29,7, GPT-4 turbo(gpt-4-1106-preview) 28,8, Claude 3 Opus 27,3, GPT-4(0613) 26,1, Llama 3 Instruct 70B 24,0, Gemini Pro 1.5 19,9, Mistral Large 17,7, Gemini 1.5 Flash 15,3, Mistral Medium 15,0, Gemini Pro 1.0 14,2, Llama 3 Instruct 8B 12,3, Mixtral-8x22B Instruct 12,2
- In dieser Liste gibt es viel zu viele OpenAI-Modelle, die zwar leistungsstark sind, aber furchtbare Namen haben.
Es gibt kaum Informationen. Es wird als schnelle und günstige Option verkauft, aber es gibt weder Benchmarks zur Inferenzgeschwindigkeit noch Vergleiche mit Nicht-Gemini-Modellen
Laut https://ai.google.dev/pricing scheint es etwas günstiger als gpt3.5-turbo bepreist zu sein, aber wie es in der Praxis abschneidet, ist nicht ersichtlich.
Wenn Gemini Flash nur ein schnelleres Gemini ist, werden schlechte Antworten nicht besser, nur weil sie schneller kommen
Ich habe Gemini Pro und ChatGPT 4 über mehrere Monate hinweg für praktische Programmierung, Systemarchitektur und gelegentliche allgemeine Fragen nebeneinander genutzt, und ChatGPT war mindestens 80 % nützlicher. Gemini lag entweder falsch oder brauchte so weitschweifige Umwege, um zu einer brauchbaren Antwort zu kommen, dass es sich nicht lohnte. Was ich brauchte, war nicht mehr Geschwindigkeit. Vielleicht ist es inzwischen „klüger“, also nützlicher, geworden.
- Wenn man Intelligenz vielleicht als die Fähigkeit definiert, mit weniger Ressourcen mehr zu leisten, könnte das ein Hinweis darauf sein, dass es im latenten Raum etwas gibt, das skalierbar ist.