2 Punkte von GN⁺ 2023-12-12 | 1 Kommentare | Auf WhatsApp teilen

Remake der gefälschten Google-Gemini-Demo mit GPT-4 – diesmal echt

  • Ein Projekt, das die gefälschte Demo von Google Gemini mit GPT-4 nachgebaut hat.
  • Es gibt eine tatsächlich funktionierende Demo, und der zugehörige Code ist im GitHub-Repository einsehbar.
  • Das Projekt wurde von Greg Technology erstellt.

Meinung von GN⁺

  • Der wichtigste Punkt dieses Artikels ist die Existenz eines Projekts, das eine frühere gefälschte Demo mithilfe von GPT-4 tatsächlich umgesetzt hat.
  • Als Beispiel dafür, wie Fortschritte in der KI-Technologie zu innovativen Ergebnissen führen, die real nutzbar sind, ist das sehr interessant.

1 Kommentare

 
GN⁺ 2023-12-12
Hacker-News-Kommentare
  • Die „Magie“ der gefälschten Gemini-Demo bestand darin, dass es so wirkte, als würde das LLM fortlaufend Audio- und Videoeingaben empfangen, erkennen, wann der Nutzer mit Sprechen oder Zeichnen fertig ist, und zum richtigen Zeitpunkt antworten.
  • Eine Überprüfung des Quellcodes ergab, dass die Demo alle 800 ms Screenshots des Video-Feeds aufnahm, wartete, bis der Nutzer seine Zeichnung fertiggestellt hatte, und dann die letzten drei Screenshots übermittelte. Das zeigt, dass sich die Interaktion mit einem LLM auf diese Weise ohne kontinuierliche Audio- und Videoeingaben nicht natürlich anfühlt.
  • Ich kann nicht verstehen, warum Unternehmen auf diese Weise lügen. Tatsächlich können sie dadurch viel verlieren; solche übertriebene PR mag kurzfristig helfen, langfristig hilft sie aber nicht.
  • Ich bin überzeugt, dass Google DeepMind in Wirklichkeit kein Sprachmodell auf dem neuesten Stand hatte. Als ChatGPT veröffentlicht wurde, sagte Google, man habe wegen KI-Sicherheit kein besseres Modell freigegeben, aber tatsächlich war das nicht der Fall.
  • GPT-4V ist sehr beeindruckend, und wer sich für Vision oder Multimodalität interessiert, sollte LLaVA ausprobieren. Ich habe persönlich die 7B-q5_k-Variante verwendet und fand sie sehr beeindruckend.
  • Mit GPT-4V ließ sich eine ähnliche Demo erstellen. Wenn Google ehrliches Marketing betrieben hätte, wären alle angemessen beeindruckt gewesen, stattdessen veröffentlichte man aber ein irreführendes Marketingvideo für die breite Öffentlichkeit und enttäuschte damit Technikexperten.
  • Ich wollte die KI-App von Google zur Gesprächsübersetzung tatsächlich einmal benutzen, aber für echte Gespräche ist sie überhaupt nicht einsetzbar. In der Demo sah es natürlich aus, aber in der Praxis stellte sich heraus, dass es nicht funktionierte.
  • Ich halte es für Verschwendung, dass JPEG-Bilder die einzige Schnittstelle zu GPT-4 sind. Das menschliche Auge nimmt eher die Unterschiede zwischen Frames wahr als die „Frames“ selbst. Ein Modell, dessen interner Zustand wie bei einem Video-Codec mit Keyframes und Deltas arbeitet, könnte der nächste große Schritt bei der Echtzeit-Videoverarbeitung sein.
  • Ich bin überzeugt, dass Google DeepMind in Wirklichkeit kein Sprachmodell auf dem neuesten Stand hatte. Als ChatGPT veröffentlicht wurde, sagte Google, man habe wegen KI-Sicherheit kein besseres Modell freigegeben, aber tatsächlich war das nicht der Fall.
  • Die Latenz dieser Demo ist verzeihlich, da sie über eine API läuft. Inferenz auf lokaler Infrastruktur ist nahezu sofortig, daher würde diese Demo alles andere übertreffen, wenn man Zugang zu dieser Infrastruktur hätte.
  • Die Wahl des Namens Sagittarius ist witzig, weil das Sternbild dem Gemini am Himmel genau gegenüberliegt.