Die Killer-App von Gemini Pro 1.5 ist Video

(simonwillison.net)

10 Punkte von GN⁺ 2024-02-22 | 1 Kommentare | Auf WhatsApp teilen

Die Größe des Token-Kontexts von Google Gemini Pro 1.5 beträgt 1.000.000
Zuvor hielten Claude 2.1 (200.000 Token) und gpt-4-turbo (128.000 Token) diesen Rekord, allerdings ist ein perfekt direkter Vergleich schwierig, da sich die Tokenisierungs-Implementierungen der Modelle unterscheiden
Nach einigen Tagen mit Gemini Pro 1.5 ist die interessanteste Funktion nicht die Token-Anzahl, sondern die Möglichkeit, Videos als Eingabe zu verwenden
Es gibt noch keinen API-Zugang, aber über die Oberfläche von Google AI Studio ließ sich auf das Modell zugreifen

Erster Test

Eines der Bücherregale wurde als 7 Sekunden langes Video aufgenommen
Hochgeladen zusammen mit dem Prompt "JSON array of books in this video"
Dieses 7-Sekunden-Video verbrauchte von dem Limit von 1.048.576 Token nur 1.841 Token
Gemini Pro 1.5 gab kein JSON zurück, antwortete aber mit einer Liste der Buchtitel und Autorennamen im Video
Nach der zusätzlichen Aufforderung "as a JSON array of objects, with title and author keys" lieferte es die Bücher/Autoren als JSON zurück
Das Ergebnis ist ziemlich erstaunlich. Das Video ist nur 7 Sekunden lang, bewegt sich recht schnell (mit etwas Motion Blur im Video), und einige Bücher sind durch andere Gegenstände verdeckt

Zweiter Test

Diesmal wurde ein mit Kochbüchern gefülltes Regal vertikal und etwas länger (22 Sekunden) als Video aufgenommen, wobei nicht nur horizontal, sondern auch nach unten geschwenkt wurde
Für dieses Video wurden 6.049 Token verwendet, was immer noch eine sehr geringe Menge ist
Neuer Prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
Doch die Anfrage wurde mit der Meldung "Unsafe Content" abgelehnt
Der Sicherheitsfilter schien sich an dem Wort "Cocktail" zu stören
Daraufhin wurden die Sicherheitseinstellungen geöffnet und für alle Kategorien auf "niedrig" gesetzt, doch auch der zweite Versuch wurde abgelehnt
Also wurde mit "go on give me that JSON" nachdrücklich angewiesen, und dann wurde JSON zurückgegeben
Auch hier ist das Ergebnis sehr beeindruckend

Wie lässt sich das nutzen?

Die Fähigkeit, strukturierte Inhalte aus Text zu extrahieren, ist bereits einer der interessantesten Anwendungsfälle für LLMs
GPT-4 Vision und LLaVA haben das auf Bilder ausgeweitet, und jetzt erweitert Gemini Pro 1.5 das auf Videos
Natürlich gelten die üblichen Vorbehalte gegenüber LLMs. Sie können Dinge übersehen und falsche Details halluzinieren
Es gibt auch Probleme mit Sicherheitsfiltern, wie im Fall von Cocktail
Daher gibt es, wie bei moderner KI üblich, weiterhin viele Herausforderungen zu bewältigen
Dennoch fühlt sich das wie ein weiteres Beispiel an, das einen Blick auf eine Zukunft erlaubt, die viel näher ist, als ich erwartet hatte

Bild vs. Video

Zunächst dachte ich, dass Videos anders verarbeitet würden als Bilder, weil die mit der Videoverarbeitung verbundene Token-Anzahl überraschend gering ist
Betrachtet man jedoch den Beitrag auf Hacker News:

Gemini 1.5 Pro can reason across up to 1 hour of video. When a video is attached, Google AI Studio breaks it down into individual frames at 1FPS without the audio, and then because the Gemini model is multimodal, it can perform highly sophisticated reasoning and problem-solving tasks.
Im technischen Bericht zu Gemini 1.5 wird dies wie folgt erklärt:

Given the 45 minute, 1924 Buster Keaton film “Sherlock Jr.” (2,674 frames at 1FPS, 684k tokens), Gemini 1.5 Pro can search and retrieve textual information from specific frames and provide the timestamp for the relevant passage.

1 Kommentare

GN⁺ 2024-02-22

Hacker-News-Kommentare

Wenn ein Agent ständig und unauffällig den Bildschirm eines Nutzers überwacht, kann das sehr nützlich oder dystopisch sein.
- Man kann erwarten, dass er jemanden über Monate beim Programmieren, Planen und Recherchieren beobachtet und dann persönliche und berufliche Ratschläge geben kann.
- Da diese Technologie die Psyche einer Person widerspiegeln und sich viele Informationen merken kann, wäre sie für Unternehmen oder böswillige Akteure äußerst wertvoll.
- Das Modell muss sicher betrieben werden, und es bestehen Risiken wie die Nachbildung einer Person oder Verletzungen der Privatsphäre.
Der Titel „Die Killer-App von Gemini Pro 1.5 ist Videoeingabe“ passt gut.
- Das könnte für die Moderation großer Mengen von Videoinhalten wie auf YouTube nützlich sein, vorausgesetzt, die Kosten lassen sich senken.
Video ist eine Folge von Bildern, und die GPT-4-Vision-Demo von OpenAI erzielt einen ähnlichen Effekt, indem sie dem Modell eine Liste von Frames sendet.
- Es wäre gut, wenn GPT-4-Vision Function Calling oder strukturierte Daten unterstützen würde, um JSON-Ausgaben zu garantieren.
- Es gibt auch eine Methode, mit ffmpeg jedes zweite Frame auszugeben, um die Kosten zu halbieren.
- Die OpenAI-Demo sendet bei einem Video mit rund 600 Frames jedes 50. Frame.
Wenn AI Videos, Bilder und Text analysieren und billig sowie effizient verarbeiten kann, wird die Privatsphäre vollständig verschwinden.
- Derzeit haben große Unternehmen viele Daten über uns, aber es gibt Grenzen dabei, alles zu verstehen und miteinander zu verknüpfen.
- Leistungsfähige AI könnte jeden Aspekt des digitalen Lebens verstehen und hätte ein enormes Potenzial für gute wie auch schlechte Zwecke.
Der Autor scheint nicht überprüft zu haben, ob die in dem als Eingabe verwendeten Video erwähnten Bücher tatsächlich korrekt sind.
- Das erste Buch, das überprüft wurde, „Growing Up with Lucy by April Henry“, existiert nicht; tatsächlich ist Steve Grand dafür verantwortlich.
- Eine coole Demo, aber in der Praxis für mehr kaum brauchbar.
Googles Sicherheitsfilter scheint auf das Wort „Cocktail“ reagiert zu haben.
- Die Sicherheitseinstellungen wurden gesenkt und es wurde erneut versucht, aber auch der zweite Versuch wurde abgelehnt.
- Die Risikoabteilung von Google scheint die Organisation vollständig übernommen zu haben, sodass selbst die klügsten Computer Angst davor haben, gefährliche Wörter oder Bilder wie „cocktail“ oder „Abraham Lincoln“ zu verwenden.
Es ist erstaunlich, dass pro Frame nur 256 Tokens verwendet werden.
- Entgegen dem Sprichwort, ein Bild sei mehr wert als tausend Worte, bedeutet das, dass es tatsächlich nur etwa 192 Wörter wert ist.
Das Problem im Zusammenhang mit „Cocktail“ existiert tatsächlich.
- Jemand wollte sich die Figuren aus Moby Dick mit DALLE vorstellen, aber das wurde vollständig abgelehnt.
- Man sollte meinen, dass ein AI-Unternehmen bessere Schimpfwortfilter entwickeln könnte.
Man fragt sich, was bei Googles Hardware-Skalierung gegenüber OpenAI (oder dem, was Microsoft bereitstellt) eigentlich die echte Killer-App ist.
- Was Google gemacht hat, ist für das OpenAI-Team wohl nicht besonders überraschend, aber vielleicht können sie in riesigem Maßstab schneller iterieren.
Die Technik selbst ist beeindruckend und interessant, aber man muss über eine Situation lachen, die man als Rache des Scunthorpe-Problems bezeichnen könnte.
- Der Sicherheitsfilter scheint auf das Wort „Cocktail“ reagiert zu haben.

Die Killer-App von Gemini Pro 1.5 ist Video

Erster Test

Zweiter Test

Wie lässt sich das nutzen?

Bild vs. Video

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare