Show HN: Gefälschte Google-Gemini-Demo mit GPT-4 nachgebaut – diesmal wirklich umgesetzt

(sagittarius.greg.technology)

2 Punkte von GN⁺ 2023-12-12 | 1 Kommentare | Auf WhatsApp teilen

Remake der gefälschten Google-Gemini-Demo mit GPT-4 – diesmal echt

Ein Projekt, das die gefälschte Demo von Google Gemini mit GPT-4 nachgebaut hat.
Es gibt eine tatsächlich funktionierende Demo, und der zugehörige Code ist im GitHub-Repository einsehbar.
Das Projekt wurde von Greg Technology erstellt.

Meinung von GN⁺

Der wichtigste Punkt dieses Artikels ist die Existenz eines Projekts, das eine frühere gefälschte Demo mithilfe von GPT-4 tatsächlich umgesetzt hat.
Als Beispiel dafür, wie Fortschritte in der KI-Technologie zu innovativen Ergebnissen führen, die real nutzbar sind, ist das sehr interessant.

1 Kommentare

GN⁺ 2023-12-12

Hacker-News-Kommentare

Der magisch wirkende Teil der gefälschten Gemini-Demo bestand darin, dass es so aussah, als würde das LLM fortlaufend Audio- und Videoeingaben erhalten und wissen, wann es sich mit einer Antwort einschalten sollte
Es wirkte, als würde es warten, bis der Nutzer die Zeichnung fertiggestellt hat, oder kurz davor dazwischengehen, und mitten in der Antwort sagte es auch, es sehe nach einer blauen Ente aus, als der Nutzer die Ente blau ausmalte
Es schien sogar zu wissen, dass keine Antwort nötig ist, wenn der Nutzer nur zustimmt
Beim Prüfen des Quellcodes stellte sich heraus, dass die Demo alle 800 ms einen Screenshot aus dem Videofeed macht, dann wartet, bis der Nutzer aufgehört hat zu sprechen, und anschließend die letzten drei Screenshots sendet
Die Demo selbst ist beeindruckend, zeigt aber auch, wie unnatürlich diese Art der Interaktion mit einem LLM ist, wenn es keine kontinuierlichen Audio- und Videoeingaben gibt
Technisch war so etwas schon seit einiger Zeit möglich, aber es gibt einen Grund, warum es bisher niemand als Produkt präsentiert hat
- Diese Demo wurde in 2–3 Stunden gebaut und nutzte die Technik, „zu warten, bis das Diktierergebnis feststeht“
  Das ist sicherer, weil die Diktat-Transkription stabiler ist, aber langsamer
  In einer anderen Demo, https://www.youtube.com/watch?v=fxS7OKh_4vc, wurden fortlaufend „laufende“ Transkriptionsergebnisse in GPT eingespeist, und das war wirklich schnell und großartig
  Allerdings ist mehr Arbeit nötig, um die verschiedenen Timings zu handhaben: tatsächliche menschliche Sprache, Transkriptionszeit, das Senden der GPT-Anfrage und die Synchronisierung damit, wo sich Sprache und Gedankengang des Nutzers befinden, wenn GPT antworten soll
  Trotzdem ist Echtzeit- und kontinuierliche Konversation eindeutig der Kern, und ich fände es gut, wenn GPT per WebSocket angeboten würde
- Als hörbehinderte Person habe ich in den letzten 20–30 Jahren viele Demos zur Echtzeit-Spracherkennung gesehen, und in Demos sehen sie alle gut aus
  Aber im Alltag wird es mit der Zeit extrem frustrierend, wenn nur jedes zehnte Wort falsch ist
- Ich habe auch mit einem Freund über multimodale LLMs gesprochen, die kontinuierliche Stream-Eingaben empfangen
  Zum Beispiel hört es beim Gitarrenüben zu und sagt an einem bestimmten Punkt: „Gut, gehen wir zu dieser Stelle zurück und üben sie noch einmal“
  Wenn ein kontinuierlicher Token-Stream hereinkommt und nur gelegentlich Ausgabe nötig ist, scheint die übliche Next-Token-Prediction nicht besonders gut zu passen
  Ich frage mich, wie solche Eingaben in der Literatur genannt werden und welche Forschung es dazu gibt
- In solchen Fällen scheint Training mit etwas wie einem Pause-Token der Schlüssel zu sein
  Vielleicht ist das aber gar nicht zwingend nötig
  Wenn man GPT-4 anweist, jedes Mal etwas wie .... auszugeben, wenn es entscheidet, dass es noch auf eine Antwort warten sollte, müsste man nicht warten, bis der Nutzer fertig ist, und es könnte viel flüssiger wirken
- Ich wollte einen GPT-4-Chatbot an einen Gruppenchat hängen, damit er auf das reagiert, was Leute sagen, aber es war zu schwierig zu entscheiden, wann er sprechen sollte und wann man die Menschen einfach miteinander reden lassen sollte, also habe ich es am Ende aufgegeben
Ich verstehe nicht, warum Unternehmen ständig so lügen
Ich weiß nicht, wie groß der Gewinn daraus sein soll, und es scheint eher so, als hätten sie viel zu verlieren
Noch seltsamer ist, dass diese Tools selbst ohne Übertreibung schon unglaublich beeindruckend sind
Als Forscher im Bereich Machine Learning sehe ich viele großartige Fortschritte, aber fast alles, von Papers bis zu Produkten, wird übermäßig aufgeblasen
Kurzfristig mag das einigen helfen, aber es wirkt, als hätte das einen Abwärtswettlauf geschaffen, der für niemanden gut ist
Gerade für ein Unternehmen wie Google ist es keine kluge Entscheidung, auf das kurzfristige Spiel zu setzen, obwohl es natürlich auch sein kann, dass ich das Umfeld, in dem wir leben, völlig falsch verstehe
Wenn man die Diskussion in diesem Thread[0] sieht, scheint es auch viele Menschen zu geben, die ethisch so kaputt sind, dass sie nicht einmal merken, dass ihr Handeln irreführend ist, und das ist ein ganz anderes, noch schlimmeres Problem
[0] https://news.ycombinator.com/item?id=38559582
- Als das Video am selben Tag erschien, schrieb unser CEO, Googles neue Technologie sei viel besser als GPT-4 und wir müssten sie sofort ebenfalls nutzen
  Ich antwortete, dass ich die Demo zwar skeptisch sehe, sie aber wie jeden Fortschritt in diesem Bereich selbst ausprobieren würde, sobald sie veröffentlicht wird
- Dass „es für ein Unternehmen wie Google nicht klug ist, auf das kurzfristige Spiel zu setzen“, könnte ein Prinzipal-Agent-Problem sein
  Die Agenten, also Mitarbeitende und Management, optimieren kurzfristige Karrierevorteile und sind den Google-Aktionären nicht loyal
  Sie könnten in drei Jahren weg sein, daher ist eine Beschädigung von Googles Ruf für sie womöglich nicht so wichtig
  Aktionäre hingegen wollen langfristige Faktoren wie Reputation optimieren
  Mit guter Governance und vestingbasierter Vergütung, die an den Aktienkurs gebunden ist, versucht man das anzugleichen, aber ein gewisses Maß an Fehlanreizen bleibt bestehen
  An diesem Punkt kann eine kultartige Ausrichtung auf die Mission tatsächlich Wert schaffen
  Wenn man Mitarbeitende davon überzeugt, wirklich an die Mission zu glauben, oder gezielt solche Leute einstellt, folgt die Ausrichtung daraus
- Wenn man sich fragt, warum Unternehmen das tun, muss man sich nur die Überschrift von Business Today ansehen
  „Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind“
  Das ist alles Marketing
  Aus demselben Grund hat Satya öffentlich gepostet, dass, falls die OpenAI-Sache nicht gut ausgeht, sama und andere Leute zu einem neuen Team bei MSFT stoßen und dort weitermachen würden
- Nach der Demo bewegte sich die Google-Aktie zunächst nicht sofort, stieg dann aber um etwa 5 % und gab nach den Berichten über die Manipulation rund 1 % wieder ab
- Dieser Vorfall vermittelte stärker als je zuvor den Eindruck, dass Google inzwischen nicht mehr von Menschen geführt wird, die Technik verstehen, sondern von nichttechnischem Business-Personal
  Leute, die auch nur ein wenig verstehen, wie diese Technologie funktioniert — also genau die Menschen, die mit höherer Wahrscheinlichkeit an Entscheidungen beteiligt sind, ob man diese Technologie oder andere Google-Produkte nutzen soll — können die Manipulation sofort erkennen
  Und solche Menschen reagieren oft sehr negativ auf derart irreführendes Verhalten
Genau das war die Demo, die man zum Gemini-Launch hätte zeigen sollen
Das ganze Drama war völlig unnötig
GPT-4V ist wirklich leistungsstark, und allen, die sich für Vision oder Multimodalität interessieren, würde ich auch ernsthaft LLaVA empfehlen (https://github.com/haotian-liu/LLaVA)
Ich habe in den letzten Tagen die 7B q5_k-Variante ausprobiert und war ziemlich beeindruckt, so sehr, dass sie gut genug war, um sogar eine Demo-App oder einen Proof of Concept für die Firma zu bauen
Man sollte aber vorher die Lizenz prüfen, oder es sonst nur für interne Demos verwenden, um den Kernpunkt zu vermitteln
- Ich nutze llava über https://github.com/Mozilla-Ocho/llamafile; auf aktuellen Systemen läuft es praktisch überall
- Update für alle, die sich gefragt haben, ob LLaVA kommerziell genutzt werden darf: Es steht unter der Apache-2.0-Lizenz, also ist kommerzielle Nutzung mit Quellenangabe möglich: https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
Das wäre mit GPT-4V völlig machbar gewesen
Man musste buchstäblich nur Screenshots machen und Bild und Text im Chat-Format einspeisen, also interleaved
Ich habe bei einem Hackathon vor Kurzem etwas Ähnliches gebaut (https://x.com/swyx/status/1722662234680340823)
Das Merkwürdige ist, dass Google das ebenfalls hätte tun können, und dann wären alle auf angemessene Weise beeindruckt gewesen, stattdessen haben sie aber ein irreführendes Marketingvideo für die breite Öffentlichkeit gemacht
Dadurch mussten die übrigen frustrierten Nerds die schmutzige Arbeit übernehmen und erklären: „Die Technik ist noch nicht so weit, wie es im Fernsehen aussah.“
Und am Ende sieht es so aus, als wären wir schuld
Mich würde auch interessieren, was so etwas im Betrieb kostet
- Während der Entwicklung und Demo davon habe ich 77 Anfragen an die GPT-vision API gestellt, und berechnet wurden 0,47 Dollar
  Das ist ziemlich vernünftig
Ich bin inzwischen überzeugt, dass Google DeepMind beim Thema State-of-the-Art-LLMs in Wirklichkeit nichts vorzuweisen hatte und einfach nur geprahlt hat
Ich erinnere mich noch, dass Google bei der Veröffentlichung von ChatGPT behauptete, ein viel besseres Modell zu haben, das man aus Gründen der AI-Sicherheit nicht freigebe
Danach haben sie PaLM und PaLM 2 veröffentlicht und gesagt, jetzt sei der Zeitpunkt gekommen, um gegen ChatGPT anzutreten, aber gute Modelle waren das nicht
Dann haben sie Gemini groß angekündigt, und wenn Gemini Ultra das Beste ist, was sie haben, fällt es schwer zu glauben, dass noch ein besseres Modell existiert
Vor einem Jahr dachte ich noch, Google habe das beste Modell, veröffentliche es aber einfach nicht; später erwartete ich dann, dass sie mit ihrer Infrastruktur, ihren Daten und ihren Talenten das beste Modell bauen könnten
Aber offenbar hatten sie in Wirklichkeit gar nichts
Vor Kurzem wollte ich tatsächlich die AI-Konversationsübersetzungs-App von Google ausprobieren, die sie vor langer Zeit vorgestellt und danach mehrfach aktualisiert und weiterentwickelt hatten
Für echte Gespräche ist sie völlig unbrauchbar
Ich war in einer Situation, in der sie wirklich hätte helfen können, und hatte Hoffnungen, weil ich die alte Demo als sehr natürlich in Erinnerung hatte, sie aber nie selbst ausprobiert hatte
Nachdem ich sie jetzt benutzt und die ursprüngliche Demo noch einmal gesehen habe, bin ich zu 100 % überzeugt, dass alles oder zumindest Teile davon manipuliert waren
So kann das unmöglich in echt funktioniert haben
Wenn sie nicht einmal eine Echtzeit-Konversationsübersetzung hinbekommen, die sehr viel nützlicher ist als das Zeichnen einer Ente, dann macht mich auch diese neue AI extrem skeptisch
Es wirkt komplett wie dieselbe Situation, und ich verstehe nicht, wie schamlos man sein muss, um so etwas komplett zu fälschen
- Wie hieß die App noch mal?
Unabhängig von dieser coolen Demo wirkt es etwas verschwenderisch, dass die Schnittstelle nur JPEG-Bilder an GPT-4 übergeben kann
Das menschliche Auge verarbeitet eher die Unterschiede zwischen Frames als das Bild selbst
Ich frage mich, ob der nächste große Schritt hin zu hochauflösender Echtzeit-Videoverarbeitung darin bestehen könnte, dass der interne Zustand des Modells wie bei Video-Codecs wie MPEG mit Keyframes und Deltas arbeitet
- Wenn Google bei Gemini von Multimodalität spricht, steht in der Liste der Modi auch „Video“
  Es ist gut möglich, dass sie damit nicht tatsächlich Video meinen, sondern wie in dieser Demo eher einzelne Frames
  Soweit ich gesehen habe, wurde das nirgendwo genauer erklärt
Dass sie den Namen Sagittarius gewählt haben, ist lustig
Im Tierkreis liegt das Zeichen genau gegenüber von Gemini
- Es gab einmal die Vermutung, dass Facebook seine nicht existierende Kryptowährung Libra und später „Diem“ so benannt habe, um gegen die Kryptobörse Gemini der Winklevoss-Zwillinge zu sticheln, langjährige Rivalen des Unternehmens
  Wie astrologisch clever das ist, weiß ich allerdings nicht
Dem Code nach zu urteilen scheinen Speech-to-Text und Text-to-Speech die eingebauten Browserfunktionen zu verwenden
Ich vergesse ständig, dass es so etwas gibt
Da das über eine API läuft, ist die Latenz nachvollziehbar
Mit Inferenz auf lokaler Infrastruktur wäre es fast sofort, und wenn diese Person nur Zugriff darauf gehabt hätte, hätte diese Demo die anderen wohl deutlich übertroffen

Show HN: Gefälschte Google-Gemini-Demo mit GPT-4 nachgebaut – diesmal wirklich umgesetzt

Remake der gefälschten Google-Gemini-Demo mit GPT-4 – diesmal echt

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare