Google-Suche in Videos
(dev.ctrlx.video)Hallo
ich bin ein Entwickler, der schon einmal eine Trainingsaufzeichnungs-App namens Flick entwickelt und betrieben hat,
und mich derzeit sehr für die Schnittmenge von LLM, Multimodal, Langchain, insbesondere LLM-Agenten und Videos interessiere.
Das Projekt, das ich vorstellen möchte, ist eine Suchmaschine, mit der sich gewünschte Szenen und Videoclips innerhalb hochgeladener Videos per Text oder Bild suchen lassen.
Derzeit werden die meisten Videos noch von Menschen verarbeitet, aber ich habe dieses Projekt mit dem Gedanken begonnen: Wenn es eine API gäbe, die mit Videos umgehen kann, könnten AI-Agenten dann nicht Videos direkt bearbeiten oder extrahieren?
Zum Ausprobieren habe ich im Playground einige zufällige YouTube-Videos hochgeladen.
Ich wäre Ihnen sehr dankbar für Feedback zur Nutzung.
P.S. Wenn Sie eigene Videos hochladen möchten oder Ergebnisse in Form einer API benötigen, kontaktieren Sie mich jederzeit.
3 Kommentare
Schon seit Langem gab es unter den Programmen zur Verwaltung von Heimvideos einige, die mehrere Szenen aus Videos extrahieren und diese über ein traditionelles(?) CNN klassifizieren und durchsuchbar machen konnten...
Das hier scheint aber so gut zu funktionieren, dass es im Vergleich zu solchen Methoden in einer ganz anderen Liga spielt.
Nach ein paar Suchanfragen hatte ich den Eindruck, dass etwa 70–80 % der Ergebnisse tatsächlich genau die Szenen waren, die ich gesucht hatte.
Wenn ich zum Beispiel nach "A scene where something explodes" suche, findet es vor allem in Spider-Man-Filmen ziemlich zuverlässig Szenen, in denen etwas aufblitzt.
Natürlich erkennt es auch Szenen mit schnellen Wechseln als Explosionen ... aber trotzdem ist das schon ziemlich faszinierend.
Als ich ein Bild mit einem Netflix-Logo hochgeladen habe, hat es nicht nur Netflix erkannt, sondern offenbar alles gefunden, wo irgendein Firmenlogo zu sehen war.
(Trotzdem ist es ein bisschen schade, dass Koreanisch nicht unterstützt wird.)
Ich habe das Gefühl, dass diese Funktion auch bei Bildern gut funktionieren würde. Dann dürfte der Tag, an dem jede Person ihr gesamtes Album einschließlich Videos mit KI durchsuchen kann, wohl nicht mehr fern sein.
Oder wenn man Livestreams oder sehr lange Videos bearbeitet, könnte man über KI Highlights oder genau die benötigten Stellen finden und herausziehen, ohne sich das komplette Video ansehen zu müssen ...
Aus Unternehmenssicht könnte ich mir auch vorstellen, dass YouTube eine Suchfunktion per natürlicher Sprache + Szene bekommt.
Wie auch immer, vielen Dank, dass Sie so ein großartiges Projekt veröffentlicht haben.
Es scheint zwar etwas anders zu sein als die Richtung, in die Sie aktuell entwickeln, aber ich würde mich freuen, wenn so ein Projekt irgendwann als Open Source veröffentlicht würde und Self-Hosting möglich wäre.
Hallo kuroneko, vielen Dank, dass Sie so viel Freude daran hatten, mit dem Projekt zu experimentieren.
„Der Tag, an dem jede einzelne Person mit KI ihr gesamtes Album inklusive Videos durchsuchen kann“
-> Da musste ich sofort daran denken, wie ich selbst in Alben nach Fotos gesucht habe ...
„Sehr lange Videos bearbeiten und mithilfe von KI Highlights oder benötigte Stellen finden und herausziehen“
-> Genau. Ich interessiere mich dafür, mit KI die Grenzkosten der Videoproduktion zu senken.
Nochmals vielen Dank, dass Sie Ihr ausführliches Nutzungsfeedback auf diese Weise mitgeteilt haben.
Ich werde es sorgfältig lesen, die Teile herausziehen, die dem Projekt Inspiration geben können, und sie weiterhin einfließen lassen.