Gemini 3 Pro: Vorreiterin der Vision-KI
(blog.google)- Gemini 3 Pro ist ein multimodales Modell der nächsten Generation, das über die reine Erkennung hinaus visuelle und räumliche Schlussfolgerungen durchführt
- In Bereichen wie Dokumenten-, räumlichem, Bildschirm- und Videoverständnis erreicht es State-of-the-Art-Leistung und erzielt in komplexen visuellen Reasoning-Benchmarks Spitzenleistungen
- Für das Dokumentenverständnis liefert es präzise OCR und Strukturrekonstruktion (Derendering) sowie fortgeschrittene Inferenzfunktionen wie mehrstufige Tabellen- und Diagrammanalysen
- Beim räumlichen, Bildschirm- und Videoverständnis verbessert es die Interaktionsfähigkeit mit realen Umgebungen durch koordinatenbasiertes Pointing, schnelle Frame-Analyse und Video-Kausalverfolgung
- In Branchen wie Bildung, Medizin, Recht und Finanzen unterstützt es präzises visuelles Verständnis und Automatisierung, wobei Entwickler den media_resolution-Parameter zur Steuerung von Leistung und Kosten nutzen können
Überblick zu Gemini 3 Pro
- Gemini 3 Pro ist ein Modell, das sich von einfacher Erkennung zu visueller und räumlicher Schlussfolgerung entwickelt hat und das von Google entwickelte leistungsstärkste multimodale Modell ist
- Über Dokumenten-, räumliches, Bildschirm- und Videoverständnis hinweg erreicht es Top-Werte in den neuesten Benchmarks
- In komplexen visuellen Reasoning-Tests wie MMMU Pro und Video MMMU wird eine neue Bestleistung erzielt
1. Dokumentenverständnis
- Reale Dokumente vereinen oft unstrukturierte Elemente wie Bilder, Handschrift, Tabellen und Formeln; Gemini 3 Pro erkennt und strukturiert solche Inhalte präzise
- OCR-Genauigkeit und visuelle Schlussfolgerungsfähigkeit wurden stark verbessert
- Mit der Derendering-Funktion können visuelle Dokumente als strukturierter Code in HTML, LaTeX und Markdown wiederhergestellt werden
- Ein Händlerbuch aus dem 18. Jahrhundert wird in eine Tabelle umgewandelt oder ein Formelbild zu LaTeX-Code rekonstruiert
- Die Originalgrafik von Florence Nightingale wird als interaktives Diagramm reproduziert
- Mit komplexer Schlussfolgerung werden Tabellen und Diagramme in langen Berichten schrittweise analysiert
- Im CharXiv-Reasoning-Benchmark wird die menschliche Referenz (80,5 %) übertroffen
- In einem Beispiel aus einem Bericht der US Census Bureau werden die Ursachen für Änderungen des Gini-Koeffizienten korrekt mit Zahlen- und Politik-Analyse abgeleitet (Auslaufen der ARPA-Maßnahmen, Ende der Konjunkturhilfen)
- Es wird daraus geschlossen, dass der Anteil der untersten 5 Einkommensquintile gestiegen ist
2. Räumliches Verständnis
- Gemini 3 Pro ist die stärkste Variante beim räumlichen Erkennen und auf das Verständnis der physischen Welt optimiert
- Mit Pixel-Koordinatenausgabe kann ein bestimmter Ort in einem Bild exakt markiert werden
- Durch aufeinanderfolgende 2D-Punkte führt es Pose-Schätzung oder Trajektorienverfolgung durch
- Mit der Open-Vocabulary-Referenzfunktion erkennt es Objekte und Absichten
- Einem Roboter kann beispielsweise die Aufgabe erteilt werden, „Den Müll auf diesem Tisch zu klassifizieren“, was eine raumbezogene Plangenerierung ermöglicht
- Auf AR/XR-Geräten unterstützt es visuelle Handlungsanweisungen wie „Zeige die Schraube gemäß dem Benutzerhandbuch an“
3. Bildschirmverständnis
- Es erkennt Desktop- und Mobile-OS-Bildschirme präzise und unterstützt die Automatisierung der Computerbedienung
- Einsatz in wiederkehrender Aufgabenautomatisierung, QA-Tests, Nutzer-Onboarding und UX-Analyse
- Es erkennt UI-Elemente und bestimmt Klickpositionen präzise
4. Videoverständnis
- Video ist das komplexeste Datenformat, und Gemini 3 Pro analysiert es schnell und präzise
- Mit hochfrequenter Verarbeitung (>1 FPS) werden schnelle Bewegungen erkannt, sodass eine feingliedrige Bewegungsanalyse etwa bei einem Golfschwung möglich ist
- Bei 10 FPS werden sogar Gewichtsverlagerung und feine Swing-Bewegungen erfasst
- Im „Thinking“-Modus wird die reine Objekterkennung auf kausale Video-Inferenz mit Ursache-Wirkungs-Nachverfolgung erweitert
- Es versteht nicht nur das „Was“, sondern auch das „Warum“ eines Ereignisses
- Lange Videos können in App-Code oder strukturierte Informationen umgewandelt werden, wodurch die Verknüpfung zwischen Video und Code gestärkt wird
5. Praktische Anwendungsfälle
- Bildung: verbesserte Fähigkeit zur Lösung grafikzentrierter Probleme in Mathematik und Naturwissenschaften
- Verarbeitung von multimodalen Schlussfolgerungsaufgaben vom Sekundarbereich bis zum Hochschulniveau
- Analyse von visuellen Mathematikrätseln wie [Math Kangaroo] und komplexen Chemie-/Physikdiagrammen
- In Kombination mit [Nano Banana Pro] werden Fehler in Schüleraufgaben visuell hervorgehoben
- Medizin und Biowissenschaften: Bestleistung in medizinischen Bild-Benchmarks wie MedXpertQA-MM, VQA-RAD und MicroVQA
- Einsatz in Röntgenbild-Frageantwortung und in mikroskopiebasierter biologischer Forschung
- Recht und Finanzen: Unterstützung der Automatisierung professioneller Dokumentenverarbeitung durch Analyse von Tabellen und Diagrammen in komplexen Berichten und Verträgen
6. Steuerung der Medienauflösung
- Bei der Verarbeitung visueller Eingaben wird die Qualität durch die Beibehaltung des ursprünglichen Seitenverhältnisses verbessert
- Mit dem media_resolution-Parameter kann das Verhältnis von Leistung und Kosten angepasst werden
- High resolution: geeignet für feingranulare OCR und komplexes Dokumentenverständnis
- Low resolution: Kosten- und Latenzoptimierung bei Szenenerkennung und Verarbeitung langfristiger Kontexte
- Detaillierte Einstellungen sind in der [Gemini 3.0 Documentation Guide] verfügbar
Entwicklerzugriff
- Gemini 3 Pro kann im Google AI Studio direkt ausprobiert werden, und die API-Integration und Modellausnutzung wird über die Entwicklerdokumentation unterstützt
3 Kommentare
Alles schön und gut, aber ich wünschte, man würde endlich beheben, dass ständig entgegen den Nutzeranweisungen YouTube-Videos eingebettet werden. Während der Antwort startet dann dauernd automatisch etwas und reißt einen aus der Konzentration, deshalb habe ich Videos im personal context verboten – und trotzdem werden gelegentlich wieder Videos hineingedrückt. Nervig ...
Als ich nur darum bat, mir eine Liste zu erstellen, wollte es plötzlich, dass ich Google Drive verbinde lol
Hacker-News-Kommentare
In meinem selbst gebauten LLM-Bildtest hat zum ersten Mal ein Modell eine Teilpunktzahl erreicht.
Der Test besteht darin, die Beine eines Hundes mit fünf Beinen zu zählen, aber die meisten LLMs behaupteten hartnäckig, es seien vier.
GPT-5 schrieb sogar selbst ein Edge-Detection-Skript, um die Grenze zwischen den „goldenen Hundepfoten“ und dem „hellgrünen Gras“ zu finden und damit vier Beine zu beweisen, behauptete dann aber, es sei ein Bug, als tatsächlich fünf erkannt wurden, und passte die Empfindlichkeit an.
Gemini 3 lag bei der Anzahl der Beine zunächst falsch, erkannte aber die „männliche Anatomie“ im Bild. Dort befand sich also das fünfte Bein.
Trotzdem ist das noch nicht wirklich beeindruckend.
Zur Referenz: Metas image slicer hat korrekt fünf Beine erkannt. Alle Hunde mit vielen Beinen wurden mit nano-banana erzeugt.
Als ich Gemini und Grok bat, die Beine zu zählen, beharrten beide auf vier.
Als ich Grok sagte, dass es falsch liege, geriet es in ontologische Verwirrung und kam schließlich zu dem Schluss: „Das ist ein bekanntes optisches Täuschungsbild, das wie ein kopfloser Hund aussieht, aber in Wirklichkeit nur drei Beine hat.“
Solche Tests holen einen jedes Mal wieder auf den Boden der Tatsachen zurück, wenn man beginnt zu glauben, LLMs seien wirklich „intelligent“.
Wenn man ein LLM bittet, den optimalen Pfad einzuzeichnen, scheitern sie alle.
Hier ist das Ergebnis von Nano Banana: Test-Link
Abgesehen davon, dass Modelle nicht wie Menschen denken, wird dadurch nicht viel bewiesen.
Ich frage mich, ob der Prompt dem Modell ausdrücklich sagt, es solle „dieses Bild sehr wörtlich interpretieren“, oder ob der Test absichtlich darauf ausgelegt ist, es hereinzulegen.
Auch ist unklar, ob das Erfolgskriterium einfach nur die Antwort „5“ ist oder ob der Gesprächskontext dazugehört.
Letztlich wirken solche Tests wie eine unproduktive Analyse, wenn es darum geht, das kognitive Niveau von LLMs zu bewerten.
Ergebnis-Link
Das Modell „dachte“ aber nicht, dass es das geschafft hatte.
Im letzten Reasoning-Schritt räumte es seine eigene Grenze ein, indem es sagte, „das fünfte Bein fehlt weiterhin“, und kam zu dem Schluss, es habe „den Fehler erkannt, liefere aber das bestmögliche Bild“.
Wenn man zum Beispiel eine Spinne mit einem fehlenden Bein, einen neunstrahligen Stern, ein vierblättriges Kleeblatt mit fünf Blättern oder Menschen mit einer anderen Fingeranzahl erzeugen lässt, liegt die Erfolgsquote unter 25 %.
Besonders das Fingerproblem ist ironisch, wenn man bedenkt, wie viel Aufwand früher betrieben wurde, um die Anatomiefehler von SD 1.5 zu beheben.
Ich arbeite mit elektrischen Bauplänen und gebe LLMs einfache Aufgaben.
Ich habe ihm einen schlampigen Entwurf gegeben, und es hat die Anordnung der Steckdosen im Raum fast in einem Durchgang fertiggestellt.
Mit etwas feinerer Steuerung könnte das bald einen erheblichen Teil der Arbeit meiner Kollegen ersetzen.
Die Leute, die solche Tools verbessern sollten, sollten nicht die nutzenden Ingenieure sein, sondern die Unternehmen, die sie gebaut haben.
Es ist riskant, sich auf unzuverlässige Beschleuniger von Drittanbietern zu verlassen.
Der Bereich erweitert sich schrittweise auf digitale Kunst, Projektmanagement, Ingenieurwesen und sogar Blue-Collar-Arbeit.
Niemand scheint sich mehr daran zu erinnern, dass der Turing-Test einmal ein ernsthaft diskutiertes Thema war.
Wenn die OCR-Verbesserungen bei Google Books zum Einsatz kämen, wäre das gewaltig.
Langfristig könnte das sogar ermöglichen, seltene Bücher für weniger als 5.000 $ komprimiert zu speichern.
Auch dieser Blogbeitrag von Anna’s Archive ist lesenswert.
Es wäre schön, wenn archive.org das statt Tesseract verwenden würde. Ich frage mich nur, was es kostet.
Die ScreenSpot-Pro-Ergebnisse sind interessant.
Das ist ein GUI-basierter Test für die Nutzung hochauflösender Computeroberflächen.
Paper-Link
Ich werde das mit den neuesten Modellen noch einmal testen.
Zugehöriger Blog
Zur Info an den Autor des Artikels: Der Link „HTML transcription“ ist kaputt.
Er verweist auf eine interne Google-Adresse.
Nano Banana Pro kann immer noch kein Wortsuchrätsel perfekt lösen.
Dagegen hat Gemini 3 Pro with Code Execution die richtige Antwort auf Anhieb gefunden und sogar die Positionen der Wörter exakt markiert.
Rätselbild, Nano-Banana-Ergebnis1, Ergebnis2
Nano Banana fand nur zwei Wörter, aber das ist ein großer Fortschritt gegenüber früher.
Das Problem erfordert feine Vorverarbeitung wie Groß-/Kleinschreibung abgleichen oder Leerzeichen entfernen.
Es hieß, „Gemini 3 Pro sei ein Generationssprung von einfacher Erkennung hin zu räumlichem Schlussfolgern“,
aber als ich um „ein volles Weinglas“ bat, zeichnete es ein Glas, das nur zu zwei Dritteln gefüllt war.
Von echtem räumlichem Schlussfolgern sind wir also noch weit entfernt.
Nano Banana Pro ist besser darin, die Position von Fehlern innerhalb eines Bildes zu erschließen.
Diese Ankündigung betrifft kein neues Modell, sondern betont nur reale Vision-Anwendungsfälle von Gemini 3.
Es heißt, mit der Koordinatenausgabe von Gemini 3 seien Posenschätzung oder Trajektorienverfolgung möglich,
aber es ist schade, dass es keine konkreten Prompts oder Dokumentation dazu gibt.
Gibt es ein Modell, das Fotos zum Beispiel auf Wide, Quadrat, Hochformat oder 4:3 zuschneiden kann? Auf Hugging Face habe ich nichts gefunden.
YouTube mit Audiobeschreibung wäre wirklich erstaunlich, wenn das möglich würde.
Man könnte sich eine narrative Playthrough-Beschreibung von Gemini anhören, ohne selbst zu spielen.
Originalvideo, Skript, TTS-Audio
Da das Video nur 144p hatte, lagen einige Details daneben, aber die Szenenbeschreibung war ziemlich genau.
Originalvideo, Ergebnis-Gist
Als Beschreibung für sehbehinderte Menschen war das ziemlich präzise.