Gemini 3 Pro: Vorreiterin der Vision-KI

(blog.google)

3 Punkte von GN⁺ 2025-12-06 | 3 Kommentare | Auf WhatsApp teilen

Gemini 3 Pro ist ein multimodales Modell der nächsten Generation, das über die reine Erkennung hinaus visuelle und räumliche Schlussfolgerungen durchführt
In Bereichen wie Dokumenten-, räumlichem, Bildschirm- und Videoverständnis erreicht es State-of-the-Art-Leistung und erzielt in komplexen visuellen Reasoning-Benchmarks Spitzenleistungen
Für das Dokumentenverständnis liefert es präzise OCR und Strukturrekonstruktion (Derendering) sowie fortgeschrittene Inferenzfunktionen wie mehrstufige Tabellen- und Diagrammanalysen
Beim räumlichen, Bildschirm- und Videoverständnis verbessert es die Interaktionsfähigkeit mit realen Umgebungen durch koordinatenbasiertes Pointing, schnelle Frame-Analyse und Video-Kausalverfolgung
In Branchen wie Bildung, Medizin, Recht und Finanzen unterstützt es präzises visuelles Verständnis und Automatisierung, wobei Entwickler den media_resolution-Parameter zur Steuerung von Leistung und Kosten nutzen können

Überblick zu Gemini 3 Pro

Gemini 3 Pro ist ein Modell, das sich von einfacher Erkennung zu visueller und räumlicher Schlussfolgerung entwickelt hat und das von Google entwickelte leistungsstärkste multimodale Modell ist
- Über Dokumenten-, räumliches, Bildschirm- und Videoverständnis hinweg erreicht es Top-Werte in den neuesten Benchmarks
- In komplexen visuellen Reasoning-Tests wie MMMU Pro und Video MMMU wird eine neue Bestleistung erzielt

1. Dokumentenverständnis

Reale Dokumente vereinen oft unstrukturierte Elemente wie Bilder, Handschrift, Tabellen und Formeln; Gemini 3 Pro erkennt und strukturiert solche Inhalte präzise
- OCR-Genauigkeit und visuelle Schlussfolgerungsfähigkeit wurden stark verbessert
Mit der Derendering-Funktion können visuelle Dokumente als strukturierter Code in HTML, LaTeX und Markdown wiederhergestellt werden
- Ein Händlerbuch aus dem 18. Jahrhundert wird in eine Tabelle umgewandelt oder ein Formelbild zu LaTeX-Code rekonstruiert
- Die Originalgrafik von Florence Nightingale wird als interaktives Diagramm reproduziert
Mit komplexer Schlussfolgerung werden Tabellen und Diagramme in langen Berichten schrittweise analysiert
- Im CharXiv-Reasoning-Benchmark wird die menschliche Referenz (80,5 %) übertroffen
- In einem Beispiel aus einem Bericht der US Census Bureau werden die Ursachen für Änderungen des Gini-Koeffizienten korrekt mit Zahlen- und Politik-Analyse abgeleitet (Auslaufen der ARPA-Maßnahmen, Ende der Konjunkturhilfen)
- Es wird daraus geschlossen, dass der Anteil der untersten 5 Einkommensquintile gestiegen ist

2. Räumliches Verständnis

Gemini 3 Pro ist die stärkste Variante beim räumlichen Erkennen und auf das Verständnis der physischen Welt optimiert
- Mit Pixel-Koordinatenausgabe kann ein bestimmter Ort in einem Bild exakt markiert werden
- Durch aufeinanderfolgende 2D-Punkte führt es Pose-Schätzung oder Trajektorienverfolgung durch
Mit der Open-Vocabulary-Referenzfunktion erkennt es Objekte und Absichten
- Einem Roboter kann beispielsweise die Aufgabe erteilt werden, „Den Müll auf diesem Tisch zu klassifizieren“, was eine raumbezogene Plangenerierung ermöglicht
- Auf AR/XR-Geräten unterstützt es visuelle Handlungsanweisungen wie „Zeige die Schraube gemäß dem Benutzerhandbuch an“

3. Bildschirmverständnis

Es erkennt Desktop- und Mobile-OS-Bildschirme präzise und unterstützt die Automatisierung der Computerbedienung
- Einsatz in wiederkehrender Aufgabenautomatisierung, QA-Tests, Nutzer-Onboarding und UX-Analyse
- Es erkennt UI-Elemente und bestimmt Klickpositionen präzise

4. Videoverständnis

Video ist das komplexeste Datenformat, und Gemini 3 Pro analysiert es schnell und präzise
- Mit hochfrequenter Verarbeitung (>1 FPS) werden schnelle Bewegungen erkannt, sodass eine feingliedrige Bewegungsanalyse etwa bei einem Golfschwung möglich ist
- Bei 10 FPS werden sogar Gewichtsverlagerung und feine Swing-Bewegungen erfasst
Im „Thinking“-Modus wird die reine Objekterkennung auf kausale Video-Inferenz mit Ursache-Wirkungs-Nachverfolgung erweitert
- Es versteht nicht nur das „Was“, sondern auch das „Warum“ eines Ereignisses
Lange Videos können in App-Code oder strukturierte Informationen umgewandelt werden, wodurch die Verknüpfung zwischen Video und Code gestärkt wird

5. Praktische Anwendungsfälle

Bildung: verbesserte Fähigkeit zur Lösung grafikzentrierter Probleme in Mathematik und Naturwissenschaften
- Verarbeitung von multimodalen Schlussfolgerungsaufgaben vom Sekundarbereich bis zum Hochschulniveau
- Analyse von visuellen Mathematikrätseln wie [Math Kangaroo] und komplexen Chemie-/Physikdiagrammen
- In Kombination mit [Nano Banana Pro] werden Fehler in Schüleraufgaben visuell hervorgehoben
Medizin und Biowissenschaften: Bestleistung in medizinischen Bild-Benchmarks wie MedXpertQA-MM, VQA-RAD und MicroVQA
- Einsatz in Röntgenbild-Frageantwortung und in mikroskopiebasierter biologischer Forschung
Recht und Finanzen: Unterstützung der Automatisierung professioneller Dokumentenverarbeitung durch Analyse von Tabellen und Diagrammen in komplexen Berichten und Verträgen

6. Steuerung der Medienauflösung

Bei der Verarbeitung visueller Eingaben wird die Qualität durch die Beibehaltung des ursprünglichen Seitenverhältnisses verbessert
Mit dem media_resolution-Parameter kann das Verhältnis von Leistung und Kosten angepasst werden
- High resolution: geeignet für feingranulare OCR und komplexes Dokumentenverständnis
- Low resolution: Kosten- und Latenzoptimierung bei Szenenerkennung und Verarbeitung langfristiger Kontexte
Detaillierte Einstellungen sind in der [Gemini 3.0 Documentation Guide] verfügbar

Entwicklerzugriff

Gemini 3 Pro kann im Google AI Studio direkt ausprobiert werden, und die API-Integration und Modellausnutzung wird über die Entwicklerdokumentation unterstützt

3 Kommentare

y15un 2025-12-06

Alles schön und gut, aber ich wünschte, man würde endlich beheben, dass ständig entgegen den Nutzeranweisungen YouTube-Videos eingebettet werden. Während der Antwort startet dann dauernd automatisch etwas und reißt einen aus der Konzentration, deshalb habe ich Videos im personal context verboten – und trotzdem werden gelegentlich wieder Videos hineingedrückt. Nervig ...

colus001 2025-12-08

Als ich nur darum bat, mir eine Liste zu erstellen, wollte es plötzlich, dass ich Google Drive verbinde lol

GN⁺ 2025-12-06

Hacker-News-Kommentare

In meinem selbst gebauten LLM-Bildtest hat zum ersten Mal ein Modell eine Teilpunktzahl erreicht.
Der Test besteht darin, die Beine eines Hundes mit fünf Beinen zu zählen, aber die meisten LLMs behaupteten hartnäckig, es seien vier.
GPT-5 schrieb sogar selbst ein Edge-Detection-Skript, um die Grenze zwischen den „goldenen Hundepfoten“ und dem „hellgrünen Gras“ zu finden und damit vier Beine zu beweisen, behauptete dann aber, es sei ein Bug, als tatsächlich fünf erkannt wurden, und passte die Empfindlichkeit an.
Gemini 3 lag bei der Anzahl der Beine zunächst falsch, erkannte aber die „männliche Anatomie“ im Bild. Dort befand sich also das fünfte Bein.
Trotzdem ist das noch nicht wirklich beeindruckend.
Zur Referenz: Metas image slicer hat korrekt fünf Beine erkannt. Alle Hunde mit vielen Beinen wurden mit nano-banana erzeugt.
- Ich habe Gemini auch gebeten, ein Bild eines Hundes mit fünf Beinen zu erzeugen, aber das gelang nicht richtig. Meistens kam ein normaler Hund heraus oder der Schwanz wurde in ein seltsames Anhängsel verwandelt.
  Als ich Gemini und Grok bat, die Beine zu zählen, beharrten beide auf vier.
  Als ich Grok sagte, dass es falsch liege, geriet es in ontologische Verwirrung und kam schließlich zu dem Schluss: „Das ist ein bekanntes optisches Täuschungsbild, das wie ein kopfloser Hund aussieht, aber in Wirklichkeit nur drei Beine hat.“
  Solche Tests holen einen jedes Mal wieder auf den Boden der Tatsachen zurück, wenn man beginnt zu glauben, LLMs seien wirklich „intelligent“.
- Ich bin kein AI-Experte, aber ich habe einen Labyrinth-Bildtest, an dem alle Modelle gescheitert sind.
  Wenn man ein LLM bittet, den optimalen Pfad einzuzeichnen, scheitern sie alle.
  Hier ist das Ergebnis von Nano Banana: Test-Link
- Diese Tests wirken auf mich wie ein verzerrter Ansatz, LLMs anhand menschlicher Kognitionsweisen zu bewerten.
  Abgesehen davon, dass Modelle nicht wie Menschen denken, wird dadurch nicht viel bewiesen.
  Ich frage mich, ob der Prompt dem Modell ausdrücklich sagt, es solle „dieses Bild sehr wörtlich interpretieren“, oder ob der Test absichtlich darauf ausgelegt ist, es hereinzulegen.
  Auch ist unklar, ob das Erfolgskriterium einfach nur die Antwort „5“ ist oder ob der Gesprächskontext dazugehört.
  Letztlich wirken solche Tests wie eine unproduktive Analyse, wenn es darum geht, das kognitive Niveau von LLMs zu bewerten.
- Nano Banana 2 hat tatsächlich ein ziemlich plausibles Bild eines Hundes mit fünf Beinen erzeugt.
  Ergebnis-Link
  Das Modell „dachte“ aber nicht, dass es das geschafft hatte.
  Im letzten Reasoning-Schritt räumte es seine eigene Grenze ein, indem es sagte, „das fünfte Bein fehlt weiterhin“, und kam zu dem Schluss, es habe „den Fehler erkannt, liefere aber das bestmögliche Bild“.
- Wenn Konzepte aus den Trainingsdaten stark unausgewogen vertreten sind, haben Modelle Schwierigkeiten, das zu überwinden.
  Wenn man zum Beispiel eine Spinne mit einem fehlenden Bein, einen neunstrahligen Stern, ein vierblättriges Kleeblatt mit fünf Blättern oder Menschen mit einer anderen Fingeranzahl erzeugen lässt, liegt die Erfolgsquote unter 25 %.
  Besonders das Fingerproblem ist ironisch, wenn man bedenkt, wie viel Aufwand früher betrieben wurde, um die Anatomiefehler von SD 1.5 zu beheben.
Ich arbeite mit elektrischen Bauplänen und gebe LLMs einfache Aufgaben.
Ich habe ihm einen schlampigen Entwurf gegeben, und es hat die Anordnung der Steckdosen im Raum fast in einem Durchgang fertiggestellt.
Mit etwas feinerer Steuerung könnte das bald einen erheblichen Teil der Arbeit meiner Kollegen ersetzen.
- Ich wünschte, es gäbe einen Zauberstab, der Tools wie AVEVA oder AutoCAD weniger schmerzhaft macht.
  Die Leute, die solche Tools verbessern sollten, sollten nicht die nutzenden Ingenieure sein, sondern die Unternehmen, die sie gebaut haben.
  Es ist riskant, sich auf unzuverlässige Beschleuniger von Drittanbietern zu verlassen.
- Ich würde gern ein Beispiel sehen, welchen Entwurf du verwendet hast. Ich würde das auch gern ausprobieren.
- Die Aussage „AI kann menschliche Kreativität niemals ersetzen“ fühlt sich immer mehr an wie verschobene Torpfosten.
  Der Bereich erweitert sich schrittweise auf digitale Kunst, Projektmanagement, Ingenieurwesen und sogar Blue-Collar-Arbeit.
  Niemand scheint sich mehr daran zu erinnern, dass der Turing-Test einmal ein ernsthaft diskutiertes Thema war.
Wenn die OCR-Verbesserungen bei Google Books zum Einsatz kämen, wäre das gewaltig.
Langfristig könnte das sogar ermöglichen, seltene Bücher für weniger als 5.000 $ komprimiert zu speichern.
Auch dieser Blogbeitrag von Anna’s Archive ist lesenswert.
Es wäre schön, wenn archive.org das statt Tesseract verwenden würde. Ich frage mich nur, was es kostet.
- Das ist eine klassische Data-Flywheel-Struktur — bessere Modelle → bessere Daten → bessere Modelle.
- „Mehr Daten für den Gott der Daten!“
Die ScreenSpot-Pro-Ergebnisse sind interessant.
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
Das ist ein GUI-basierter Test für die Nutzung hochauflösender Computeroberflächen.
Paper-Link
- Ich war überrascht, dass GPT-5 in einem einfachen OCR-Test vor ein paar Monaten deutlich schlechtere Leistung zeigte als Opus 4.1 und Gemini 2.5.
  Ich werde das mit den neuesten Modellen noch einmal testen.
  Zugehöriger Blog
- Das Ergebnis von GPT-5.1 ist extrem niedrig. Könnte es sein, dass beim Downscaling Informationen verloren gehen?
- Wenn dieser Trend anhält, dürften wir bald Genauigkeiten im 90-%-Bereich sehen.
Zur Info an den Autor des Artikels: Der Link „HTML transcription“ ist kaputt.
Er verweist auf eine interne Google-Adresse.
- Es ist witzig, dass das Design interner Unternehmensportale seit Jahrzehnten unverändert wirkt. Dieser altmodische Stil weckt Nostalgie.
- Hier ist Rohan, der Autor des Artikels. Danke für den Hinweis, ich habe es gerade korrigiert.
- Überraschend, dass der Hilfe-Link zum Login auch ohne Anmeldung geöffnet werden kann.
- Der Link „See prompt in Google AI Studio“ verweist ebenfalls auf einen privaten Prompt.
Nano Banana Pro kann immer noch kein Wortsuchrätsel perfekt lösen.
Dagegen hat Gemini 3 Pro with Code Execution die richtige Antwort auf Anhieb gefunden und sogar die Positionen der Wörter exakt markiert.
Rätselbild, Nano-Banana-Ergebnis1, Ergebnis2
Nano Banana fand nur zwei Wörter, aber das ist ein großer Fortschritt gegenüber früher.
Das Problem erfordert feine Vorverarbeitung wie Groß-/Kleinschreibung abgleichen oder Leerzeichen entfernen.
- Wenn man die Gemini-Web-App nutzt, sollte man nicht direkt im Bildgenerierungsmodus starten, sondern zuerst im normalen Gesprächsmodus den genauen Prompt-Ablauf festlegen und dann die Bildgenerierung anweisen.
Es hieß, „Gemini 3 Pro sei ein Generationssprung von einfacher Erkennung hin zu räumlichem Schlussfolgern“,
aber als ich um „ein volles Weinglas“ bat, zeichnete es ein Glas, das nur zu zwei Dritteln gefüllt war.
Von echtem räumlichem Schlussfolgern sind wir also noch weit entfernt.
- Gemini 3 Pro ist nicht dasselbe wie Nano Banana Pro, und die Robustheit des Bilddecoding-Modells könnte geringer sein.
  Nano Banana Pro ist besser darin, die Position von Fehlern innerhalb eines Bildes zu erschließen.
- Ich habe denselben Prompt ausprobiert, und als ich noch einmal sagte „bitte fülle das Glas bis kurz vor dem Überlaufen“, bekam ich ein perfekt gefülltes Glas.
- Umgekehrt würde es vermutlich korrekt antworten, wenn man ihm ein Bild gibt und fragt: „Ist dieses Glas voll?“ Qwen-VL funktioniert in solchen Fällen bereits gut.
Diese Ankündigung betrifft kein neues Modell, sondern betont nur reale Vision-Anwendungsfälle von Gemini 3.
Es heißt, mit der Koordinatenausgabe von Gemini 3 seien Posenschätzung oder Trajektorienverfolgung möglich,
aber es ist schade, dass es keine konkreten Prompts oder Dokumentation dazu gibt.
- Ich hätte gern eine Funktion in einem CMS, die Fotos automatisch für verschiedene Seitenverhältnisse framed.
  Gibt es ein Modell, das Fotos zum Beispiel auf Wide, Quadrat, Hochformat oder 4:3 zuschneiden kann? Auf Hugging Face habe ich nichts gefunden.
- Simons dazugehöriger Blog hilft weiter: Bounding Box Visualization
YouTube mit Audiobeschreibung wäre wirklich erstaunlich, wenn das möglich würde.
Man könnte sich eine narrative Playthrough-Beschreibung von Gemini anhören, ohne selbst zu spielen.
- Ich habe ein Zelda-TOTK-Video alle 5 Sekunden analysiert und daraus eine narrative Sprachbeschreibung erstellt.
  Originalvideo, Skript, TTS-Audio
  Da das Video nur 144p hatte, lagen einige Details daneben, aber die Szenenbeschreibung war ziemlich genau.
- Ich habe auch ein einstündiges Witcher-3-Video mit 144p verarbeitet und konnte mit ungefähr 300.000 Tokens problemlos szenenweise Beschreibungen erzeugen.
- Ich habe die ersten 5 Minuten des Openings von Zelda: Breath of the Wild in die Gemini-App hochgeladen und um eine szenenweise Beschreibung gebeten.
  Originalvideo, Ergebnis-Gist
  Als Beschreibung für sehbehinderte Menschen war das ziemlich präzise.