Gemini-„Enten“-Demo lief weder in Echtzeit noch per Sprache

(twitter.com/parmy)

1 Punkte von GN⁺ 2023-12-08 | 1 Kommentare | Auf WhatsApp teilen

Googles beeindruckende Gemini-Enten-Demo wurde entgegen dem Eindruck des veröffentlichten Videos nicht als Echtzeitdialog oder mit Spracheingabe durchgeführt
Dem Modell wurde nicht das Video direkt zur Verarbeitung gegeben, sondern Standbilder, die aus den Szenen extrahiert wurden
Ein Sprecher erklärte, dass zusätzlich menschliche Prompts verwendet wurden und die Sprach-Narration im Video später hinzugefügt wurde
Die tatsächliche Durchführung unterscheidet sich von der im finalen Video gezeigten Echtzeit- und Sprachinteraktion
Bei der Bewertung der Gemini-Demo sollte man zwischen dem inszenierten Video und den Eingaben unterscheiden, die tatsächlich in das Modell gelangten

Wie die Gemini-Enten-Demo tatsächlich durchgeführt wurde

Googles Gemini-Demo mit der Ente wurde nicht in Echtzeit durchgeführt
Das Modell verarbeitete das Video nicht direkt in Echtzeit, sondern erhielt Standbilder aus den Videoszenen als Eingabe
Dem Modell wurden menschliche Prompts bereitgestellt; die Narration dieser Prompts wurde nachträglich hinzugefügt
Diese Vorgehensweise wurde über einen Sprecher bekannt

Zugehöriger Link

Weitere Details führen zu einem Artikel von Bloomberg Opinion: bloomberg.com/opinion/articl…

1 Kommentare

GN⁺ 2023-12-08

Meinungen auf Hacker News

An der Uni habe ich so etwas auch schon gemacht.
In meinem ersten Informatikkurs bekamen wir einen Raspberry Pi und die Aufgabe, ohne Programmiererfahrung oder Anleitung „irgendetwas“ zu bauen. Die Abgabe war kein Code, sondern nur eine funktionierende Vorführung.
Wir drei kauften einen Feuchtigkeitssensor, schlossen ihn an den Pi an und sagten, wir würden ein Hochwasser-Erkennungssystem bauen, das unter einer Brücke installiert wird und kurz vor einer Überschwemmung den zuständigen Stellen eine E-Mail schickt.
Bei der eigentlichen Demo saß hinten im Klassenraum ein Freund mit geöffnetem Gmail bereit, um eine E-Mail mit dem Betreff „Hochwasserwarnung“ zu verschicken, und das Skript gab zwischen wait-Aufrufen einfach nur Sätze aus. Nachdem es „Warte auf Feuchtigkeit“ ausgegeben hatte, tauchten wir den Sensor in ein Wasserglas, während drei Sekunden später „Feuchtigkeit erkannt“ erschien. Als dann „Sende E-Mail an xxx@yyy.com“ ausgegeben wurde, drückte der Freund hinten auf Senden, die E-Mail kam an, und wir bekamen die volle Punktzahl.
- Im Bereich industrieller Steuerungssysteme nennt man so etwas Smoke and Mirrors.
  Manchmal will ein Kunde schon etwas sehen, das zumindest teilweise fertig aussieht, obwohl das große Projekt noch nicht bereit ist, und erwartet einen fertigen Zustand, ohne zu verstehen, dass 90 % der Arbeit für den Nutzer unsichtbar sind.
  Es kommt recht häufig vor, dass man ein Dummy-HMI aufsetzt, jemand während der Demo einen Button drückt und im Nebenraum jemand anderes Ausgaben und Eingaben manuell manipuliert, damit es so aussieht, als würde es tatsächlich funktionieren.
- In der Schule habe ich beim Bau eines lokalen Navigationssystems etwas Ähnliches gemacht.
  Im Verlauf des Projekts hatte ich alle GPS-Empfänger, die ich in die Finger bekam, kaputtgemacht; dieses Modell eines RS-232-GPS-Moduls war wirklich empfindlich. Deshalb konnten wir keine echte Echtzeitnavigation vorführen, und fertig war das Ganze ohnehin noch nicht.
  Trotzdem stellten wir die GUI fertig und taten so, als sähe es „während der Navigation“ so aus, ohne den Navigationscode tatsächlich laufen zu lassen. Es war keine benotete Aktivität, aber es fühlt sich bis heute etwas unangenehm an.
- Im Grunde hast du damals schon die Betrugstechniken gelernt, die man später in der sogenannten Tech-Branche braucht.
- Ist das nicht Schummeln? Klingt nach Schummeln und lässt dich auch ziemlich schlecht dastehen.
- Immerhin gab es buchstäblich ein Backend.
Das ist wirklich seltsam. Google hat den Transformer erfunden, auf dem all diese Modelle beruhen, und ich verstehe nicht, wie sie trotzdem ständig so danebenliegen können.
Google Docs kam 2006 heraus, aber Microsoft isst ihnen das Mittagessen weg. Google hat die Möglichkeit geschaffen, VMs im laufenden Betrieb zu verändern, und vollständig automatisierte Rechenzentren gebaut, aber in der Cloud liegen Amazon und Microsoft vorn. Mit autonomem Fahren beschäftigen sie sich länger als alle anderen, aber Tesla hat aufgeholt und wird vermutlich sogar gewinnen.
Das Ausmaß des Danebenliegens ist enorm.
- Ich war im September 2008 bei Microsoft, und intern gab es bereits ein sehr hübsches und gut funktionierendes Web-Office.
  Es hatte einen anderen Namen, war, glaube ich, nicht SharePoint, und hatte wohl etwas mit Dingen wie Spesenabrechnungen zu tun. Es hätte selbst das heutige Google Docs alt aussehen lassen, aber man wollte das eigene Produkt nicht kannibalisieren.
- Google kann nichts anderes.
  Produkte brauchen Hingabe und Iteration, und die letzten 10 % sind die wichtigsten. Google weigert sich aber immer wieder, Produkte über die Ziellinie zu bringen, gibt sie auf und fügt sie dem berüchtigten Google Product Graveyard hinzu.
  Ehrlich gesagt frage ich mich, wozu das gut sein soll. Sie könnten einfach ihr Kerngeschäft Suche/Werbung weiterbetreiben und müssten nicht Milliarden von Dollar für zehntausende teure Ingenieure ausgeben, die durch einen fragwürdigen Interviewprozess gekommen sind.
- Überraschend ist es schon, aber nicht völlig unerwartet. Google ist inzwischen für Produktinkompetenz fast ebenso berüchtigt wie für technische Stärke.
  Dass ein Unternehmen, das die Grundlagenforschung zu generativer KI dominiert, bei Consumer-Produkten frontal stolpert, passt zu der Firma, die Stadia, GMail/Inbox und 17 Chat-Apps hervorgebracht hat.
- Die Technologie von Google Docs basierte auf einer übernommenen Firma; Google hat sie nur mithilfe seines Suchmonopols populärer gemacht. Bei YouTube haben sie dieselbe Strategie angewendet.
  Seit Gmail hat Google kaum noch ein ordentliches eigenes Produkt auf den Markt gebracht, und selbst Gmail wurde dadurch groß, dass Google sein Suchmonopol wie eine kostenlose Werbetafel nutzte.
  Es gibt auch die Aussage: „Google Docs begann als Writely, ein webbasierter Textprozessor, den das Softwareunternehmen Upstartle im August 2005 veröffentlichte.“
- Ihr redet vom Danebenliegen, aber Google hat mehr Produkte mit über einer Milliarde Nutzern als jedes andere Unternehmen der Welt.
  Worum es Google immer ging, war, Anwendungen zu Milliarden von Nutzern zu bringen.
  Dabei wird auch vergessen, dass Google derzeit das profitabelste KI-Unternehmen der Welt ist. Alle seine Produkte nutzen Machine Learning und KI.
  Wer verliert hier also? Das Ziel von Gemini ist es nicht, trotz Bard einen Chatbot wie ChatGPT zu bauen, sondern ihn in zehn Produkte mit jeweils einer Milliarde Nutzern zu integrieren.
Die gesamte Gemini-Webseite und ihr Inhalt fühlten sich seltsam an. Es wirkte, als wolle es wie Apple-Marketingmaterial aussehen und sich auch so anfühlen, sei dabei aber im Uncanny Valley gelandet.
Übertriebene Formulierungen, chirurgisch genau austarierte ethnische und geschlechtliche Diversität, unnötige Animationen und dazu eine vertriebsartige Präsentation des CEO – als wolle ein kleiner Player in diesem Bereich wie ein großer Player wirken.
- Inzwischen scheinen OpenAI-Keynotes Google-Keynotes von vor fünf Jahren nachzuahmen, und Google-Keynotes Apple-Keynotes von vor fünf Jahren.
  Apple-Keynotes wirken, als würden Roboter, die gerade erst aus dem Uncanny Valley herausgekommen sind, so tun, als seien sie Menschen. Wenn Keynotes in fünf Jahren von KI erstellt werden, könnten sie genau so aussehen; Apple ist also selbst bei Keynote-Trends immer vorn dabei.
- Ich hatte denselben Eindruck. Auch Namen wie Ultra und Pro, und dass man das Gemini-Zeitalter ausruft, obwohl man es noch gar nicht nutzen kann, wirkt geschmacklos.
  Google scheint zeigen zu wollen, dass sie im selben Stadion spielen.
- Ich kann mir vorstellen, wie Produktmanager sich gegenseitig auf die Schulter klopfen, weil sie alle Showcase-Checkboxen abgehakt haben, ohne zu merken, dass das Ganze wie eine perfekte Satire wirkt.
- Ich verstehe nicht, was „chirurgisch genau austarierte ethnische und geschlechtliche Diversität“ heißen soll und warum das schlecht sein sollte.
  Marketing setzt Diversität ein, weil der Zielmarkt selbst divers ist. Was daran allerdings „chirurgisch genau“ sein soll, ist mir nicht ganz klar.
Dass Sundar das Modell mit einem Prompt dazu gebracht hat, viele Fakten zu nennen, die wahr oder falsch sein können, war ein großes Warnsignal.
Wenn man sich die veröffentlichten Benchmark-Zahlen ansieht, waren es meist nur knappe Verbesserungen; das heißt, das Halluzinationsproblem ist nicht gelöst. Die Demo wirkte jedoch so, als sei es gelöst. Am Ende wurden wohl vor allem Fälle ausgewählt, in denen das Modell zufällig richtig lag oder konsistente Informationen lieferte.
Die Fähigkeiten wurden übertrieben, aber es scheint wohl tatsächlich ein multimodales Modell nötig zu sein, um über mehrere Modalitäten hinweg bei Phänomenen, die real beobachtbar sein könnten, zu konsistenten Konzepten zu konvergieren. Ein guter Fortschritt, aber jetzt muss überzeugend gezeigt werden, dass eine bestimmte Architektur tatsächlich Kausalität modelliert.
- Auch im Werbevideo von Mark Rober[1] gab es eine Szene, in der ganz offensichtlich eine Suggestivfrage gestellt wurde, als gefragt wurde, warum das Papierflugzeug in den Strömungsabriss geraten ist.
  Etwa: „Glauben Sie, dass eine Tasche heißer Luft einen niedrigeren Druck erzeugt und das Flugzeug dadurch in den Strömungsabriss geriet?“ Die Frage selbst war so holprig, dass es schwer schien, sie überhaupt vernünftig zu formulieren. Wirklich peinlich.
  [1] https://www.youtube.com/watch?v=mHZSrtl4zX0&t=277s
- Mit Retrieval-Augmented Generation (RAG) lässt sich das Halluzinationsproblem nicht lösen. Dass dafür eine grundlegend andere Architektur nötig ist, sage nicht ich, sondern Yann LeCun.
  Wenn man es selbst ausprobiert, versteht man das schnell. Wegen ihres autoregressiven Charakters können LLMs intern kein konsistentes Modell aufbauen, bevor sie antworten. Es gibt Ansätze wie Chain-of-Thought, aber das sind nur Behelfslösungen, die das Problem nur oberflächlich behandeln.
- Seit der Kritik von „stochastischen Papageien“ und „superstarker Autovervollständigung“ ist die Frage aufgekommen, ob Halluzinationen von LLMs prinzipiell lösbar sind.
  Wenn sie lösbar sind, hätte das eine sehr grundlegende und fundamentale wissenschaftliche Bedeutung und wäre wohl ein weiterer kleiner Durchbruch in der KI.
- Solche LLMs haben kein Konzept von faktischer Korrektheit und werden auch nicht darauf trainiert oder optimiert. Es ist lächerlich, dass Leute erwarten, dass sie sich wie Quiz-Bots verhalten; das ist ein völliges Missverständnis des Wesens generativer LLMs.
  Sie geben nur die Ausgabesequenz aus, die sich nach der Eingabesequenz am plausibelsten anfühlt. Wie man „am plausibelsten“ definiert, ist Gegenstand vieler Forschung, aber auf faktische Korrektheit zu optimieren, ist eine völlig andere Sache.
  In bestimmten Fällen, etwa bei Coding-Aufgaben, können sie klug wirken, weil der grobe Konsens der Internet-Texte zu bestimmten Prompts ziemlich nah an den Fakten liegt und weniger durch Müllinhalte von Laien verunreinigt ist. Auch allgemeine, weichgespülte „Content“-Generierung beherrschen sie gut, aber welchen Wert das hat, weiß ich nicht.
  Letztlich ist die Qualität der zurückkommenden Informationen nicht besser als die einer sorgfältigen Google-Suche; sie liefern nur schneller, knapper und hübscher aufbereitete Antworten.
- Ich glaube, Demos sind doch eigentlich immer bis zu einem gewissen Grad so.
Ich bin darauf hereingefallen. In der Ankündigung zur Veröffentlichung des Modells hieß es, es könne multimodale Eingaben aus Video und Audio verarbeiten.
Mir war klar, dass es viel Schnitt und viele Cuts gab, aber ich glaubte, echte Beispiele mit Video- und Audioeingaben zu sehen. Der Schritt von Text und Standbildern zu „Augen und Ohren“ war ein großer Sprung, und ich war völlig beeindruckt. Es gab auch einen Teil, in dem ein Instrument gezeichnet und Musik erzeugt wurde, sodass ich dachte, ich sähe ein Modell, das wie spezialisierte Modelle per Sprachprompt Musik erzeugt.
Aber alles war Fake. Es war eine dramatisierte Zusammenstellung ausgewählter Prompt-Engineering-Beispiele, inszeniert, um die Begeisterung der Aktionäre zu maximieren. Im Musikbeispiel wurde nicht die Musik erzeugt, die wir im Video hörten; es wurde lediglich eine Beschreibung des Stücks ausgegeben.
Ein übertriebenes Video nach dem Motto „So etwas könnte möglich werden“ ist etwas völlig anderes, als ein neues multimodales Modell als das beste zu bezeichnen, Benchmarks zu manipulieren und bei einer Demo zu täuschen.
Google scheint in die böse Phase eingetreten zu sein. OpenAI und Microsoft dürften ziemlich zufrieden grinsen.
- Genau. Persönlich finde ich beides in Ordnung.
  Eine zukunftsgerichtete Demo, die die Zukunft eines Produkts zeigt und dabei klar macht, dass man noch nicht dort ist, sich aber in diese Richtung bewegt, oder eine Demo, die mit Skript und Schnitt die aktuellen Funktionen bestmöglich aussehen lässt, ist Standardpraxis und akzeptabel.
  Aber was Google getan hat, war einfach falsch. Dafür dürfen sie Gegenwind bekommen.
- Diese Art von moralischem Betrug und unethischem Verhalten wird aus irgendeinem Grund toleriert.
  Vielleicht wollen Investoren auch getäuscht werden. Es gibt keinen Raum für Due Diligence; selbst wenn sie Lügen hören, kreischen sie begeistert wie Taylor-Swift-Fans.
- „Phase“?
  Solche Großkonzerne kommen so lange und so oft wie möglich mit allem durch, womit sie durchkommen können. Das klingt so, als bestünde unsere Aufgabe nur darin, darauf zu warten, dass sie uns irgendwann eine „nicht böse Phase“ gewähren; tatsächlich müssen wir aber die Kartellaufsicht wiederherstellen, die in den letzten 30 Jahren systematisch ausgehöhlt wurde.
- Ich dachte auch, dass es Video als Eingabe verarbeiten könne.
  Da die Datenmenge von Video enorm ist, hatte ich erwartet, dass es etwa ein Frame pro Sekunde extrahiert und als Bilder verarbeitet, die ursprüngliche Eingabe aber als vollständiges Video annimmt.
  Wie sich herausstellte, war es nicht einmal das.
- Das erinnert mich an ein Video, in dem eine führende Forschungsabteilung bei Google in Wirklichkeit ein Animationsstudio ist. Ich wünschte, ich könnte mich besser erinnern, welches Video das war.
  Solche übertriebenen Videos zu produzieren, um Aktionäre zufriedenzustellen, lässt einen das Vertrauen in die Forschungssparte verlieren. Als sie BERT vorgestellt haben, haben sie so etwas meines Wissens nicht gemacht.
Ich nutze Swype-Eingabe seit den T9-Zeiten
Wenn ich jemandem, der an eine QWERTY-Tastatur gewöhnt ist, Swype-Eingabe genau so vorführe, wie ich sie im Alltag benutze, würde sie niemand übernehmen.
Die Quote, bei der ein falsches Wort erraten wird oder ich etwas korrigieren muss, liegt vermutlich bei 10–20 %. Aber weil es leicht zu korrigieren ist, ist das kein Problem und bremst überhaupt nicht. Unter den verschiedenen Arten der Texteingabe ist es für mich persönlich die beste, aber es dauert, bis man lernt, sie zu benutzen.
Ich glaube, das gilt für alle Produkte. Wenn man nach 100 Stunden Gewöhnung und Anpassung an Edge Cases einfach unverfälscht zeigt, wie es tatsächlich funktioniert, würde niemand irgendetwas übernehmen.
Weil beides schlecht ist, weiß ich nicht so recht, was die Lösung wäre.
Edit: Ich schreibe gerade auf dem Handy mit Swype, daher lasse ich die Tippfehler passend zu diesem Kontext stehen.
- Es ist etwas völlig anderes, ein Produkt von seiner besten Seite zu zeigen, als eine Funktionsweise zu demonstrieren, die gar nicht existiert.
  Das wäre, als enthielte eine Swype-Tastatur-Demo telepathische Gedankenkontrolle zur Fehlerkorrektur.
- Macht Swype das Editieren einfacher? Die iOS-Rechtschreibprüfung hat negativen Wert. Ich habe sie vor ein paar Jahren ausgeschaltet, dadurch wurden es weniger Fehler, aber es gibt immer noch Tippfehler zu korrigieren.
  Leider ist auch die Textbearbeitung in iOS völlig unbrauchbar. Sie erzwingt seltsame Auswahlbereiche und fügt korrigierten Text auf unbeholfene Weise ein.
  Ich tippe Nachrichten mit QWERTY, aber die Texteingabe von iOS ist eine komplette Katastrophe und ist mit der Zeit immer schlechter geworden.
- Das ist ein anderes Problem als LLM-Halluzinationen.
  Bei Swype weiß man bereits, wie die korrekte Ausgabe aussehen soll. Wenn die Ausgabe nicht dem entspricht, was man wollte, merkt man es sofort und korrigiert es.
  Wenn man einem LLM eine Frage stellt, kennt man die richtige Antwort nicht unbedingt. Wenn die Ausgabe selbstbewusst genug wirkt, nehmen Menschen sie als Wahrheit an. Abgesehen von Experimenten und Tests fragen Menschen LLMs nicht Dinge, deren Antwort sie bereits kennen.
- Der Kernpunkt hier ist, dass die Korrekturgeschwindigkeit entscheidend dafür ist, wie der langfristige Wert einer Interface-Technik wahrgenommen wird.
  Das ist auch der Hauptgrund, warum Handschrifterkennung Tastaturen nicht ersetzt hat. Nachdem Handschrift in Text umgewandelt wurde, ist es einfacher, Fehler mit Pointer und Tastatur zu korrigieren. Nach ein paar Wiederholungen denken die meisten: „Dann fange ich lieber gleich mit Pointer und Tastatur an und spare Zeit.“
  Die Frage ist dann, wie einfach es ist, Fehler in Ausgaben generativer KI zu finden und zu korrigieren. Leider kann es sehr schwierig sein, Fehler herauszufiltern, wenn man die Antwort nicht schon kennt.
- Ich weiß, Marketing ist Marketing, aber etwas als „Demo“ zu präsentieren, das völlig von der tatsächlichen Nutzung entkoppelt ist, halte ich für schlechten Stil.
  Eine Swype-Tastatur braucht Übung, aber eine Demo einer solchen Eingabemethode zeigt normalerweise eine realistische Nutzung, selbst wenn die vorführende Person ein „Experte“ ist.
  Solche Demos führen dazu, dass Menschen missverstehen, was ein Produkt tatsächlich kann, und verstärken am Ende den unvermeidlichen zynischen Backlash. Wenn ein Produkt wirklich großartig ist, erkennen die Leute das auch an einer realistischen Funktionsdemo.
Die auf Twitter verlinkte Bloomberg-Seite ist inzwischen offline.[1] Die Ersatzseite ist [2], und auf der neuen Seite steht, dass Teile davon gefälscht waren. Die alte Seite konnte ich im Archiv nicht finden.
[1] https://www.bloomberg.com/opinion/articles/2023-12-07/google...
[2] https://www.bloomberg.com/opinion/articles/2023-12-07/google...
- Der TechCrunch-Bericht enthält mehr Details – https://techcrunch.com/2023/12/07/googles-best-gemini-demo-w...
- Ähnlich wütend werde ich, wenn Figuren in TV-Serien schneller auf Nachrichten antworten, als ein Mensch tippen kann. Das zerstört die Glaubwürdigkeit meiner Lieblings-Romcom.
Ich finde, das ist ein gutes Beispiel dafür, dass man Vertrauen in echte Videos, Audio, Bilder und Unternehmensmarketing infrage stellen und bis zur Verifikation davon ausgehen sollte, dass es generiert ist.
Wenn Sprache, E-Mails, Chats und bald auch Video alle in Echtzeit oder nahezu in Echtzeit generiert werden können, frage ich mich, wie man sicher sein kann, dass ein Remote-Mitarbeiter nicht tatsächlich ganz oder teilweise eine generierte Entität ist.
Geteilte Geheimnisse sind zur Verifikation gut, aber was ist die Lösung, wenn der Körper vollständig remote ist?
Ich bin gerade auf Reisen; wie kann ich überprüfen, dass die Person, die eine Venmo-Anfrage schickt und behauptet, ein Familienmitglied habe verlorenes Gepäck, wirklich ich bin?
- Wenn man nicht überprüfen kann, ob ein Mitarbeiter eine KI ist, kann man ihn entlassen und durch KI ersetzen.
- PGP
- Man kann nach Informationen fragen, die nur die echte Person wissen kann.
- Man kann eine Passphrase/ein Passwort für Notfälle festlegen, sie mit der Familie teilen und in solchen Situationen verwenden.
- Das ist auch ein Grund, warum die Community sich zu Wort melden sollte, wenn sie so etwas aufdeckt. Denn sie untergraben das Vertrauen in Technik-Demos.
  Eine Lüge ist schon um die Welt, bevor die Wahrheit aus den Startblöcken kommt, aber das heißt nicht, dass man sie einfach liegen lassen kann.
Im Video selbst und in der Videobeschreibung gibt es Haftungsausschlüsse in diesem Sinne. Trotzdem stimme ich zu, dass manche Leute mit einem falschen Verständnis davon weggehen könnten, wie Gemini funktioniert.
Es wäre schön, wenn Echtzeitinteraktion bald Teil der App würde. Technisch scheint es dafür nicht allzu viele Hürden zu geben.
- Der gesamte Haftungsausschluss im Video war nur „Sequenzen wurden insgesamt gekürzt“, eingeblendet für 2 Sekunden in winziger Schrift am unteren Bildschirmrand.
  An anderer Stelle wurden die meisten Details offengelegt, aber das Video selbst war so produziert und geschnitten, dass es stark irreführend war. Man wollte offenbar, dass die Leute glauben, Gemini reagiere komplex auf einfache Sprach-Prompts und einen Video-Feed – tatsächlich war das nicht der Fall.
- Der Haftungsausschluss in der Beschreibung lautete: „Für diese Demo wurde die Latenz reduziert und die Gemini-Ausgabe gekürzt.“
  Das ist etwas anderes als: „Gemini wurden ausgewählte Standbilder eingegeben, kein Video.“
- Menschen achten kaum auf Haftungsausschlüsse. Google wusste, dass die Leute sich nicht an den Disclaimer erinnern würden, sondern an den übertriebenen Eindruck, und hat sich dafür entschieden.
- Nein, der Haftungsausschluss war keineswegs ausreichend.
  Das Video hat viele Leute getäuscht, mich eingeschlossen. Das war keine übliche, extrem optimierte und geskriptete Demo.
  Es war eindeutig irreführende Werbung, die eine nicht existierende Funktion zeigte, und ehrlich gesagt ein beschämendes Verhalten von Google.
- Auch Google-Suchanzeigen haben nur ein winzig kleines „Anzeige“-Label, und es gibt seit Langem die Entwicklung, Anzeigen auffälliger zu machen und zugleich weniger unterscheidbar.
  Im Kontext von KI-generierten Inhalten und allgemeiner Manipulation halte ich dieses Video für täuschend. Das einzig Beeindruckende an dem Video war für mich die schnelle und flexible Reaktionsfähigkeit, die so wirkte, als würde es Video in Echtzeit verarbeiten – und nichts davon war echt. Das grenzt an Betrug.
Auch ich wurde dazu verleitet zu glauben, dass Gemini über einen Video-/Audio-Feed sieht und hört, statt Standbilder und Text-Prompts zu erhalten.
Der Unterschied zwischen Standbildern und einem Video-Feed mag nicht groß erscheinen, aber in Wirklichkeit muss ein Bot sehr viel über den sich verändernden Kontext verstehen, damit er nicht ständig dumm vor sich hinplappert.
Außerdem muss er in einer Echtzeit-Video-Feed-Unterhaltung den Zustand erkennen, es noch nicht zu wissen, um angemessen schweigen zu können – und das ist bei generativer KI notorisch schwierig.
Natürlich kann man es mit ein paar Hacks und Heuristiken einfacher machen, aber einen Bot in einer Unterhaltung wie einen menschlichen Gesprächspartner wirken zu lassen, ist wirklich schwierig. Genau das war der beeindruckendste Teil der „Unterhaltung“ im Video, und leider war alles davon gefälscht :(

Gemini-„Enten“-Demo lief weder in Echtzeit noch per Sprache

Wie die Gemini-Enten-Demo tatsächlich durchgeführt wurde

Zugehöriger Link

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News