Meine durch KI gestohlene Stimme

(jeffgeerling.com)

1 Punkte von GN⁺ 2024-09-23 | 1 Kommentare | Auf WhatsApp teilen

Jeff Geerling entdeckte in einem YouTube-Werbetutorial von Elecrow eine Erzählstimme, die seiner eigenen sehr ähnlich klang, obwohl er die betreffenden Sätze nie selbst gesprochen hat
Die fragliche Stimme scheint in mehreren Video-Serien zu ESP32 und RP2040 verwendet worden zu sein, und Jeff vermutet, dass seine YouTube-Videos für ein KI-Stimmklon-Tool genutzt wurden
Da Jeff in der Vergangenheit das CrowPi 2 von Elecrow getestet hat und Elecrow ein Unternehmen für Raspberry-Pi-Zubehör und Elektronik ist, ist der Beziehungskontext komplexer als bei einem bloßen Streit mit einem externen Anbieter
Zwar ist die Rechtslage bei unbefugtem KI-Stimmklonen selbst noch unklar, doch die Nutzung der Stimme einer anderen Person ohne Zustimmung in kommerziellen Arbeiten lässt sich mit dem Fall Midler vs. Ford in Verbindung bringen
Jeff forderte Elecrow zunächst per E-Mail zu einer Erklärung und zur Löschung der Videos auf, statt sofort Takedowns oder rechtliche Schritte einzuleiten, und ist der Ansicht, dass Unternehmen entweder Sprecher engagieren oder formelle Kooperationen eingehen sollten

Eine Jeff Geerling ähnliche Stimme in einem Elecrow-Video

Jeff Geerling hörte einen YouTube-Clip von Elecrow und kam zu dem Schluss, dass die Erzählstimme erstaunlich vertraut nach seiner eigenen klang
Das Video stammt nicht vom Jeff Geerling channel, sondern von Elecrow, und Jeff hat die darin enthaltenen Sätze nie gesprochen
Jemand hatte Jeff den Link zu dem Elecrow-Video per E-Mail geschickt und darauf hingewiesen, dass der Ton seltsam klinge. Jeff hält es für möglich, dass einige Zuschauer wegen seines eigenen Kanals zum selben Thema dachten, er habe einem Stimmauftritt zugestimmt
Elecrow ist ein Unternehmen, das Elektronik und Raspberry-Pi-Zubehör herstellt, und Jeff hatte in der Vergangenheit das CrowPi 2 von Elecrow getestet
Zuvor gab es kein schlechtes Verhältnis zu Elecrow, weshalb Jeff noch nicht zu 100 % sicher ist, ob dies absichtlich geschah
In der Videoversion dieses Beitrags kann man den Elecrow-Clip direkt mit Jeffs natürlicher Stimme vergleichen

Verdacht auf KI-Stimmklonen und Reaktion

Jeff betont, dass dies schwer zu beweisen ist, hält es aber für wahrscheinlich, dass Elecrow seine YouTube-Videos in ein KI-Stimmklon-Tool eingespeist und mit der resultierenden Stimme mehrere Werbetutorials vertont hat
- Als Beispiele nennt er die ESP32-Serie und die RP2040-Serie
Nach dem Vorfall, bei dem OpenAI die Stimme von Scarlett Johansson faktisch kopiert haben soll, hatte Jeff erwartet, dass Unternehmen bei KI-Stimmen für Produktdemos oder Tutorials vorsichtiger sein würden, doch dieser Fall widerspricht dieser Erwartung
Soweit Jeff weiß, gibt es noch keinen klaren rechtlichen Präzedenzfall für unbefugtes KI-Stimmklonen, aber als Präzedenz dafür, dass man die Stimme einer anderen Person in kommerziellen Arbeiten nicht ohne Zustimmung verwenden darf, nennt er Midler vs. Ford
Eine Reaktion über Anwälte wäre kostspielig, und es ist auch nicht sicher, ob nicht einvernehmliches Stimmklonen gegen die YouTube-Nutzungsbedingungen verstößt
Jeffs Forderungen sind klar
- Man darf nicht die Stimme oder das Abbild anderer Menschen stehlen und für Produkte oder Videos verwenden
- Marken sollten Sprecher engagieren oder Content Creators für eine Zusammenarbeit bezahlen
Jeff schrieb Elecrow eine E-Mail und bat darum, mindestens zwei Serien mit einer Jeff ähnlichen KI-Stimme offline zu nehmen
- Er fragte, ob die Stimme absichtlich so gestaltet wurde, dass sie ihm ähnelt
- Er verlangte auch eine Bestätigung, ob seine Videos oder Audioinhalte zum Training der Stimme verwendet wurden
Statt sofort YouTube-Löschanträge oder rechtliche Schritte einzuleiten, wollte er zunächst per E-Mail beginnen, und da es zuvor keine Probleme gegeben hatte, lässt er die Möglichkeit eines ehrlichen Fehlers offen
Allerdings steht fest, dass Elecrow Jeffs Kanal kannte
- Von 2020 bis heute gab es mehr als 43 E-Mails mit fünf Marketingmitarbeitern von Elecrow
- 22 davon stammen aus diesem Jahr
- Am 2. April 2024 schrieb ein Marketingmitarbeiter von Elecrow, man wolle über eine bezahlte Partnerschaft sprechen
In einem Update vom 23. September antwortete der CEO von Elecrow, und Jeff veröffentlichte einen Folgebeitrag mit dieser Antwort und seinen weiteren Gedanken zum KI-Stimmklonen

1 Kommentare

GN⁺ 2024-09-23

Hacker-News-Kommentare

Jeder hat wohl andere Ängste in Bezug auf KI, aber besonders beängstigend ist der Fall, dass per KI gefälscht wird, als hätte jemand blasphemische Aussagen gemacht.
In meinem Land entsteht schon bei etwas, das nur wie eine sehr geringfügige Beleidigung wirkt – ob real oder eingebildet –, ein Lynchmob wegen Blasphemie. Sie kommen zusammen, lynchen jemanden und verbrennen die Leiche; während die Familie sich versteckt, das Opfer verleugnet und eine Videobotschaft veröffentlicht, in der sie dem Mob vergibt, verteilen die Täter Süßigkeiten.
Das gab es schon, bevor KI leicht zugänglich wurde. Man kann sagen, das sei „ein Thema von Entwicklungsländern“, aber es wird nicht dort haltmachen, sondern sich ausbreiten. Man kann einem Kleinkind kein Messer in die Hand drücken und ihm dann vorwerfen, jemanden erstochen zu haben.
Unabhängig von Reputation, Sicherheit oder Urheberrecht: Das kann Menschen das Leben kosten, und es gibt kein Werkzeug, um es zu kontrollieren.
https://x.com/search?q=blasphemy
Ich fürchte mich vor der Zukunft.
- Entgegen der Intuition glaube ich, dass die Antwort darin liegt, solche KI-Tools offener und zugänglicher zu machen.
  Solange sie eingeschränkt, reguliert oder schwer zugänglich bleiben, werden die Leute weiterhin glauben, dass Videos und Aufnahmen nicht manipulierbar sind. Wenn Voice-Cloning aber mit einer 1-Dollar-App zu einem einfachen, lustigen Streich wird und Jugendliche damit Scherzanrufe machen, kann sich dieses Bewusstsein bald in der Öffentlichkeit festsetzen.
  Letzte Woche fragte mich meine 70-jährige Mutter, ob sie ihre Voicemail-Begrüßung löschen solle. Sie meinte, jemand könne damit doch ihre Stimme stehlen; vermutlich hatte sie so etwas bei Fox oder Ähnlichem gehört, was mich überrascht hat.
  Ein paar Jahre werden hart, aber ich hoffe, sie gehen schnell vorbei.
- In diesem Fall liegt das Problem nicht bei der KI, sondern bei diesem Land.
- Wegen des Gedankens „Was, wenn jemand per KI gefälscht wird, als hätte er blasphemische Aussagen gemacht?“ habe ich überlegt, Dang einen offenen Brief zu schreiben und ihn zu bitten, meinen Account zu löschen.
  Heute ist es bei Nutzern mit einer gewissen Zahl an Kommentaren sehr wahrscheinlich möglich, sie per Korrelationsanalyse zu deanonymisieren. Selbst wenn das nicht zu 100 % genau ist, kann man ihren Schreibstil stehlen. Vielleicht ist das übervorsichtig, aber es gibt keine Garantie, dass wir nicht in einen dunklen Wald hineinlaufen; und es gibt Gründe zu glauben, dass wir uns in diese Richtung bewegen.
  Gleichzeitig frage ich mich, ob es nicht gerade ein Zeichen des Nicht-Aufgebens ist, sich nicht in den Schatten zurückzuziehen.
- Das Beste wäre wohl, persönlich die ersten etwa 5 Jahre solche Dinge zu vermeiden; danach wird es so verbreitet und einfach sein, dass alle Videos, die sie sehen, anzweifeln.
  Ähnlich war es bei Social Media wie Reddit, wo es einige Jahre lang „Täter suchen“ oder „Doxxing“ gab, bis die Betreiber erkannten, dass Online-Mobs oft falschliegen, und es üblicherweise verboten.
  Bis aber Gesetze verabschiedet sind oder es zum Allgemeinwissen wird, dass ein Video eher gefälscht als echt sein kann, werden viele Menschen Schaden nehmen. Es kann auch länger als 5 Jahre dauern, und ein weiteres Problem ist, dass Gesetze meist erst entstehen, nachdem jemandem ein Schaden nachgewiesen wurde.
- Dann bleibt wohl nur, mit KI ein Video zu erstellen, in dem die gesamte Führung des Lynchmobs Blasphemie begeht, und sie das intern regeln zu lassen.
Ich sehe nicht, warum der Einsatz von KI ein Grund sein sollte, dem Präzedenzfall Midler vs. Ford zu entgehen.
Im Gegenteil: Wenn die Stimme per KI geklont wurde, statt eine andere Synchronsprecherin die Stimme imitieren zu lassen, scheint mir die Verteidigung sogar schwächer.
- Dieser Präzedenzfall gilt nur in den Bundesstaaten im Zuständigkeitsbereich des Ninth Circuit Court of Appeals.
  In vielen anderen Bundesstaaten sind Gesetze und Rechtsprechung zum sogenannten Right of Publicity sehr uneinheitlich verteilt. Ob ein solches Konzept anerkannt und wie seine Grenzen gezogen werden sollten, ist unter den Bundesstaaten alles andere als allgemein geklärt.
- In diesem Fall hat das Gericht seine Entscheidung ausdrücklich auf die Stimme einer professionellen Sängerin beschränkt.
  „...diese Beobachtung gilt für Gesang, insbesondere für den Gesang berühmter Sänger. Eine Sängerin offenbart sich in ihrem Lied. Ihre Stimme nachzuahmen heißt, ihre Identität zu plündern...“
  „Wir müssen nicht entscheiden – und tun es auch nicht –, dass jede Stimmenimitation in der Werbung für Produkte klagbar ist. Wir entscheiden lediglich, dass ein Verkäufer sich etwas aneignet, das ihm nicht gehört, wenn er die unverwechselbare Stimme einer weithin bekannten professionellen Sängerin absichtlich imitiert, um ein Produkt zu verkaufen...“
- Die eigentliche Lösung besteht darin, Synchronsprecher von Anfang an nicht neu zu besetzen, sondern auszuschließen.
Danke für den Hinweis auf die Rechtsprechung, aber Präzedenzfälle sind nur der Ausgangspunkt; letztlich müssen wir Prinzipien entwickeln, die über die Rechtsprechung hinausgehen.
Wenn Technologie beispiellose Fähigkeiten hervorbringt, kann die Gesellschaft entweder Grenzen ziehen, damit sie für Menschen nicht nachteilig, sondern vorteilhaft wirkt – oder zulassen, dass wir uns weiter einer Welt annähern, in der die Mächtigen tun, was sie wollen, und die Schwachen oder Leute, die sich gerade so einen Camry leisten können, damit klarkommen müssen.
- Kalifornien hat kürzlich ein entsprechendes Gesetz in Kraft gesetzt, und das ist ein Anfang. Auch der Kongress arbeitet am „No Artificial Intelligence Fake Replicas And Unauthorized Duplications Act“.
  Er befindet sich noch in der Ausarbeitung im Repräsentantenhaus, hat aber Unterstützung beider Parteien. Man kann seine Abgeordneten kontaktieren und sie bitten, ihn mit einzubringen oder dafür zu stimmen.
  https://www.cbsnews.com/losangeles/news/california-bills-pro...
  https://salazar.house.gov/media/press-releases/salazar-intro...
  https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
- Partei in einem Verfahren zu werden, das zum Präzedenzfall wird, klingt weder angenehm noch einfach.
  Man müsste eine politische Non-Profit-Organisation wie die ACLU finden, die die Kosten für wiederholte Berufungen trägt, und währenddessen negative Berichterstattung und Aufmerksamkeit aushalten.
  Ich stimme völlig zu, dass die Camry-Schicht Fürsprecher braucht, aber eines der Kernprinzipien moderner Praxis ist, dass Menschen selbst wählen dürfen sollten, welches Maß an Beitrag sie sich leisten können. Man sollte ermutigen, unterstützen und Mut machen, aber nicht beschämen.
  Jedenfalls dürfte schon dieser Blogbeitrag ausreichen. Kaum jemand stellt sich auf die Seite derer, die menschliche Stimmen stehlen; anders als beim Scraping der NYT oder von deviantart-Archiven als Trainingsdaten fühlt sich das intuitiv deutlich unangenehmer an. Öffentliches An-den-Pranger-Stellen wird keine großen Schadensersatzzahlungen bringen, aber das war wohl auch nicht das Ziel.
Wenn große Sprachmodelle die ultimative Remix-Maschine sind, fragt man sich, ob jeder mit Retrieval-Augmented Generation (RAG) ein digitaler DJ ist.
Bei digitalen Informationen ist es nicht einmal mehr leicht zu wissen, was Diebstahl überhaupt ist. Es gibt zu wenig Rechtsprechung, sodass es sich anfühlt wie der Wilde Westen des geistigen Eigentums und Urheberrechts.
Wenn selbst ein Superstar wie Scarlett Johansson kaum mehr tun kann, als einen schmerzvollen Brief darüber zu schreiben, dass OpenAI versucht habe, ihre „Her“-Persona nachzuahmen, was kann dann ein vergleichsweise gewöhnlicher Nischen-Nerd tun?
Wahrscheinlich läuft es darauf hinaus, dass man wie Geerling ebenso traurig, wütend und frustriert ist und sagt: „Bitte haltet euch in gutem Glauben an einen Ehrenkodex.“
- Solcher Missbrauch wird erst interessant, wenn es eine Bekanntheit gibt, die sich zu stehlen lohnt.
  In solchen Fällen kann man diese Bekanntheit auch zur Vergeltung nutzen. Es ist zum Beispiel schwer vorstellbar, dass diese Sache am Ende gut für Elecrows Ruf ist. Wenn ich den Firmennamen das nächste Mal sehe, werde ich denken: „Ach, die Firma, die Leute täuscht“, und das ist nicht gut für sie.
  Noch beunruhigender ist der Einsatz, um jemanden loszuwerden, den man nicht mag. Man kann sich etwa vorstellen, dass ein Hochschuldozent nichts falsch gemacht hat, aber ein Student, der mit seiner Note unzufrieden ist, Voice Cloning nutzt, um es so aussehen zu lassen, als hätte der Dozent etwas gesagt, wofür er entlassen werden könnte. Wenn Voice Cloning sehr gut wird, wie soll sich so jemand verteidigen? Schwierig, bis solche Fälschungen so verbreitet sind, dass Aufnahmen selbst nicht mehr als vertrauenswürdig gelten.
- Es gibt keinen Diebstahl, nur Kaperbriefe, die es erlauben, Menschen auszuplündern, weil sie Memes und Meme-Komplexe verwenden, auf die jemand zuerst Anspruch erhoben hat, ohne dafür zu bezahlen.
  Für Diebstahl müsste gelten, dass das Opfer den Nutzen des gestohlenen Gegenstands verliert. Copy-and-paste sprengt lediglich ein Kartenhaus-System, das Menschen mit Gefängnis und Armut bedroht, wenn sie behauptete Memes nutzen und nicht zahlen.
  Wenn ich in einem Urheberrechtsverfahren Geschworener wäre, in dem der Beklagte kein Unternehmen, sondern ein Mensch ist, würde ich immer auf Jury Nullification setzen.
- Das scheint nicht nur ein digitales Problem zu sein.
  Hat Eric Schmidt nicht kürzlich gesagt, man solle erst einmal stehlen und, falls man Erfolg hat, die Anwälte später alles regeln lassen?[0,1]
  [0] https://x.com/alexeheath/status/1823873344133062680
  [1] Genauer gesagt meinte er wohl, man solle legal stehlen, aber was das bedeuten soll, weiß ich nicht.
- Beim Urheberrecht scheint es immer irgendeine Art Wilden Westen zu geben.
  Wenn die Welt ständig von unten springt und tritt, um einen abzuwerfen, steht man vielleicht am falschen Ort.
- Die Formulierung „was Diebstahl ist“ wurde durch mehrere Stufen gezerrt, aber das ist nur Projektion von Willen.
  Für Objekte mit einer .copy()-Schnittstelle ist Diebstahl nicht definiert. Wenn man genauer hinsieht, existiert er trotzdem noch.
  Die Leute sollten nicht das Gesetz, sondern ihre Erwartungen anpassen. Computer haben Kassierer ersetzt, und jetzt ersetzt Stimm-Schauspiel die Synchronsprecher. Popularität bedeutet eigentlich nicht viel, und wenn nur beliebte Menschen ihre Jobs behalten können, ist das nicht auch unfair?
Selbst wenn man den AI-Teil außen vor lässt, wirkt es so, als hätten sie Jeffs Meinung massiv verzerrt oder sein Bild ohne Erlaubnis verwendet.
Durch die Nutzung seiner Stimme erzeugen sie eine implizite und manipulierte Empfehlung für das Produkt, was sich sehr falsch anfühlt. Für solche Fälle dürfte es schon lange vor AI Gesetze gegeben haben.
- Einen ähnlichen Gedanken hatte ich in letzter Zeit auch.
  Es gab schon früher Menschen, die Stimmen gut imitieren konnten, und meistens nutzten sie diese Fähigkeit für Comedy oder Satire, nicht um die Ansichten anderer zu verfälschen. Ich bin kein Jurist, aber das scheint mir auf einer ziemlich soliden rechtlichen Grundlage zu stehen, und jemanden falsch darzustellen dürfte rechtlich vergleichsweise leicht zu behandeln sein.
  Der Unterschied ist die Demokratisierung. Früher hatten nur sehr wenige Menschen diese Fähigkeit; jetzt kann fast jeder mit einem Computer etwas Ähnliches tun. Dadurch wird die Durchsetzung viel schwieriger, und wenn rechtliche Schritte nötig sind, dürfte das für jemanden wie Jeff Geerling kaum zu stemmen sein.
Vielleicht bin ich da komisch, aber ich finde nicht, dass die Stimme seiner so stark ähnelt.
Sie ist ein bisschen ähnlich, aber anders, etwas höher, nasaler und auch die Intonation ist etwas anders.
- Aus der Perspektive von jemandem, der ihn vorher nie gehört hat: Schon die ersten Sekunden dieses Videos klingen ähnlich genug, dass man es als unvollkommene AI-Stimmenkopie sehen kann.
  https://www.youtube.com/watch?v=UMofZIT9FcQ
- Als jemand, der alle seine Videos und Livestreams gesehen hat, finde ich, dass sie ihm wirklich sehr ähnlich klingt.
- Sie wurde eindeutig mit seiner Stimme trainiert.
  Die erwähnten Unterschiede bei Intonation und Tonhöhe entstehen einfach dadurch, dass es eine AI-generierte Stimme ist und keine menschliche Äußerung.
- Ich habe Hunderte seiner Videos gesehen, und sie klingt wirklich sehr ähnlich wie er.
- Bei den Tools, die ich kenne, fügt man mehrere Arten von Sprachclips hinzu, die man mischen möchte; dann werden alle Elemente darin so vermischt, dass man sie nicht vollständig kennen oder kontrollieren kann, plus die Zufälligkeit des Systems.
  Vermutlich wäre deren Darstellung, dass sie angenehmere Stimmen beigemischt haben, um genug Unterscheidbarkeit zu schaffen.
  Die Frage ist, wer entscheidet, wie unterschiedlich es sein muss, um nicht mehr unter Missbrauch von Bild- bzw. Stimmähnlichkeit zu fallen. Der „König der generischen Nerd-Stimme“ behauptet eine übermäßige Ähnlichkeit, und die verdächtigte Seite wird den gesamten Prozess nicht offenlegen.
  Auch das Tuning von AI-Stimmen nach Gehör wird bald möglich sein, also ist man nicht sicher, nur weil man verlangt, als repräsentative Stimme eines bestimmten Bereichs vom Training ausgenommen zu werden. So etwas wie eine Stimmen-Autoritätsbehörde klingt düster.
Als kleiner Tech-YouTuber hatte ich auch schon Kontakt mit Elecrow.
Soweit ich weiß, erhalten Mitarbeiter nicht nur bei Elecrow, sondern auch bei mehreren anderen Firmen Prämien, Beförderungen oder Provisionen, wenn sie langfristige Partnerschaften oder Video-Kooperationen mit YouTubern zustande bringen. Jemand könnte gedacht haben, es sei clever, Jeffs Stimme zu klonen, weil sein Kanal in diesem Bereich ziemlich bekannt ist.
Für Elecrow ist das jetzt sicher keine gute PR, und ich bin gespannt, ob sie einräumen werden, dass es Absicht war.
Die Vorstellung, dass der Tonfall einer gestohlenen Stimme wichtig wäre, ist einer der kurzsichtigsten Aspekte von AI-Investitionen. Dahinter steckt gewissermaßen die Hollywood-Denke „Bloß nie etwas Neues schaffen“
In etwa fünf Jahren werden AI-Stimmen personalisiert sein und angenehmer klingen als echte Menschen. Sie sind nicht durch Stimmband-Ermüdung begrenzt, lassen sich beliebig verändern und durch Messung der Nutzerbeteiligung leicht nachjustieren
Künftig wird es vor allem darum gehen, die Sprachausgabe fein abzustimmen und die Beteiligung zu beobachten
- Gestohlen wurde hier weniger die Stimme selbst als vielmehr die Ähnlichkeit zum Autor, seine im YouTube-Tech-Bereich aufgebaute Reputation und das Vertrauen in kommerzielle Produkte, die er bereits rezensiert hatte
  Genau deshalb haben sie seine Stimme ausgewählt
  AI-Stimmen mögen ästhetisch ununterscheidbar sein oder sogar bevorzugt werden, aber Reputation oder Authentizität tragen sie nicht in sich. Diese sind von Natur aus knapp und deshalb wertvoll. In einem Meer generischer, zur Massenware gewordener Billig-Inhalte dürfte die Nachfrage nach Personen mit eigenem Markenwert eher steigen als sinken. Genau deshalb verdienen Influencer heute in der Werbung so viel Geld
- „Dieser Anruf kann zu Zwecken der Qualitätssicherung und Schulung überwacht oder aufgezeichnet werden“
  „Schulung“, aha
- Ich bin mir nicht sicher, ob es überhaupt noch fünf Jahre dauert. Hast du elevenlabs ausprobiert?
  Schon jetzt bieten sie mehrere Voice-Cloning-Verfahren an, beginnend mit 30 Sekunden Spracheingabe. Die 30-Sekunden-Variante ähnelt der Zielstimme einigermaßen, ist aber nicht völlig identisch; wenn man mehrere Stunden Audiomaterial einspeist, klingt es wie ein echter Mensch. Außerdem kann man die Stimme über einige Parameter anpassen oder allein über Parameterdefinitionen eine neue erstellen
  Die Stimme im Video könnte der Qualität nach eine „Instant Clone“-Stimme sein, die aus nur wenigen Sekunden Eingabe erzeugt wurde. Für fortgeschritteneres Cloning muss man nachweisen, dass es die eigene Stimme ist
  [1] https://elevenlabs.io
- Ich setze langfristig auf Menschen und glaube, dass viele als Gegenreaktion auf die übermäßige Verbreitung AI-generierter Inhalte anfangen werden, Unvollkommenheit zu bevorzugen
- In unserem Land gibt es viel Synchronisation, und es gibt Synchronsprecher, mit deren Stimmen Millionen Menschen in Animes usw. aufgewachsen sind
  In so einer Situation könnten Unternehmen versuchen, deren Stimmen zu kaufen. Es geht nicht nur darum, dass sie angenehm klingen, sondern der Wert der Vertrautheit ist groß. ElevenLabs hat zum Beispiel auch Stimmrechte von Verstorbenen von deren Hinterbliebenen gekauft
  Abgesehen von solchen speziellen, nostalgisch geprägten Kontexten sehe ich aber keinen Grund, nicht von Anfang an eine synthetische Stimme zu erstellen
Alle werden es für Spaß halten, bis jemand eine Aufnahme erzeugt, in der eine andere Person scheinbar ein Verbrechen gesteht, und sie vor Gericht verwendet wird
Genau das ist der Teil an AI, den ich nicht mag
- Ein paar Jahre lang wird es schlimm sein, aber wird es irgendwann nicht so leicht manipulierbar sein, dass es als Beweismittel vor Gericht unzulässig wird?
  Aber was sollen wir tun, wenn Video- und Audiobeweise unzulässig werden?
- Es ist noch schlimmer. Leute werden anfangen, auch echte Sprachaufnahmen, die sie belasten, als Fälschungen zu bezeichnen
  Allerdings scheinen beide Fälle eher vor dem Gericht der öffentlichen Meinung wichtiger zu sein als vor einem echten Gericht
- Wenn man nicht auch Bildbearbeitungsprogramme ablehnt, verstehe ich dieses Argument nicht ganz
  Bei der Bewertung einer neuen nützlichen Technologie dürfte die Bewahrung von Beweisformaten kaum das Hauptanliegen sein
Da es Hunderte Tools zum Voice Cloning gibt, ist es nur natürlich, dass Inhalte mit geklonten Stimmen auftauchen
Das ist ähnlich wie bei der unbefugten Nutzung des Bildes einer Person. Für Plattformen und Moderationsteams gibt es bereits Verfahren zum Melden und Entfernen. Für Stimmen scheint etwas Ähnliches nötig zu sein

Meine durch KI gestohlene Stimme

Eine Jeff Geerling ähnliche Stimme in einem Elecrow-Video

Verdacht auf KI-Stimmklonen und Reaktion

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare