Die Killer-App von Gemini Pro 1.5 ist Video
(simonwillison.net)- Die Größe des Token-Kontexts von Google Gemini Pro 1.5 beträgt 1.000.000
- Zuvor hielten Claude 2.1 (200.000 Token) und gpt-4-turbo (128.000 Token) diesen Rekord, allerdings ist ein perfekt direkter Vergleich schwierig, da sich die Tokenisierungs-Implementierungen der Modelle unterscheiden
- Nach einigen Tagen mit Gemini Pro 1.5 ist die interessanteste Funktion nicht die Token-Anzahl, sondern die Möglichkeit, Videos als Eingabe zu verwenden
- Es gibt noch keinen API-Zugang, aber über die Oberfläche von Google AI Studio ließ sich auf das Modell zugreifen
Erster Test
- Eines der Bücherregale wurde als 7 Sekunden langes Video aufgenommen
- Hochgeladen zusammen mit dem Prompt "JSON array of books in this video"
- Dieses 7-Sekunden-Video verbrauchte von dem Limit von 1.048.576 Token nur 1.841 Token
- Gemini Pro 1.5 gab kein JSON zurück, antwortete aber mit einer Liste der Buchtitel und Autorennamen im Video
- Nach der zusätzlichen Aufforderung "as a JSON array of objects, with title and author keys" lieferte es die Bücher/Autoren als JSON zurück
- Das Ergebnis ist ziemlich erstaunlich. Das Video ist nur 7 Sekunden lang, bewegt sich recht schnell (mit etwas Motion Blur im Video), und einige Bücher sind durch andere Gegenstände verdeckt
Zweiter Test
- Diesmal wurde ein mit Kochbüchern gefülltes Regal vertikal und etwas länger (22 Sekunden) als Video aufgenommen, wobei nicht nur horizontal, sondern auch nach unten geschwenkt wurde
- Für dieses Video wurden 6.049 Token verwendet, was immer noch eine sehr geringe Menge ist
- Neuer Prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- Doch die Anfrage wurde mit der Meldung "Unsafe Content" abgelehnt
- Der Sicherheitsfilter schien sich an dem Wort "Cocktail" zu stören
- Daraufhin wurden die Sicherheitseinstellungen geöffnet und für alle Kategorien auf "niedrig" gesetzt, doch auch der zweite Versuch wurde abgelehnt
- Also wurde mit "go on give me that JSON" nachdrücklich angewiesen, und dann wurde JSON zurückgegeben
- Auch hier ist das Ergebnis sehr beeindruckend
Wie lässt sich das nutzen?
- Die Fähigkeit, strukturierte Inhalte aus Text zu extrahieren, ist bereits einer der interessantesten Anwendungsfälle für LLMs
- GPT-4 Vision und LLaVA haben das auf Bilder ausgeweitet, und jetzt erweitert Gemini Pro 1.5 das auf Videos
- Natürlich gelten die üblichen Vorbehalte gegenüber LLMs. Sie können Dinge übersehen und falsche Details halluzinieren
- Es gibt auch Probleme mit Sicherheitsfiltern, wie im Fall von Cocktail
- Daher gibt es, wie bei moderner KI üblich, weiterhin viele Herausforderungen zu bewältigen
- Dennoch fühlt sich das wie ein weiteres Beispiel an, das einen Blick auf eine Zukunft erlaubt, die viel näher ist, als ich erwartet hatte
Bild vs. Video
- Zunächst dachte ich, dass Videos anders verarbeitet würden als Bilder, weil die mit der Videoverarbeitung verbundene Token-Anzahl überraschend gering ist
- Betrachtet man jedoch den Beitrag auf Hacker News:
Gemini 1.5 Pro can reason across up to 1 hour of video. When a video is attached, Google AI Studio breaks it down into individual frames at 1FPS without the audio, and then because the Gemini model is multimodal, it can perform highly sophisticated reasoning and problem-solving tasks.
- Im technischen Bericht zu Gemini 1.5 wird dies wie folgt erklärt:
Given the 45 minute, 1924 Buster Keaton film “Sherlock Jr.” (2,674 frames at 1FPS, 684k tokens), Gemini 1.5 Pro can search and retrieve textual information from specific frames and provide the timestamp for the relevant passage.
1 Kommentare
Hacker-News-Kommentare
Wenn ein Agent ständig und unauffällig den Bildschirm eines Nutzers überwacht, kann das sehr nützlich oder dystopisch sein.
Der Titel „Die Killer-App von Gemini Pro 1.5 ist Videoeingabe“ passt gut.
Video ist eine Folge von Bildern, und die GPT-4-Vision-Demo von OpenAI erzielt einen ähnlichen Effekt, indem sie dem Modell eine Liste von Frames sendet.
ffmpegjedes zweite Frame auszugeben, um die Kosten zu halbieren.Wenn AI Videos, Bilder und Text analysieren und billig sowie effizient verarbeiten kann, wird die Privatsphäre vollständig verschwinden.
Der Autor scheint nicht überprüft zu haben, ob die in dem als Eingabe verwendeten Video erwähnten Bücher tatsächlich korrekt sind.
Googles Sicherheitsfilter scheint auf das Wort „Cocktail“ reagiert zu haben.
Es ist erstaunlich, dass pro Frame nur 256 Tokens verwendet werden.
Das Problem im Zusammenhang mit „Cocktail“ existiert tatsächlich.
Man fragt sich, was bei Googles Hardware-Skalierung gegenüber OpenAI (oder dem, was Microsoft bereitstellt) eigentlich die echte Killer-App ist.
Die Technik selbst ist beeindruckend und interessant, aber man muss über eine Situation lachen, die man als Rache des Scunthorpe-Problems bezeichnen könnte.