Meine durch KI gestohlene Stimme
(jeffgeerling.com)- Jeff Geerling entdeckte in einem YouTube-Werbetutorial von Elecrow eine Erzählstimme, die seiner eigenen sehr ähnlich klang, obwohl er die betreffenden Sätze nie selbst gesprochen hat
- Die fragliche Stimme scheint in mehreren Video-Serien zu ESP32 und RP2040 verwendet worden zu sein, und Jeff vermutet, dass seine YouTube-Videos für ein KI-Stimmklon-Tool genutzt wurden
- Da Jeff in der Vergangenheit das CrowPi 2 von Elecrow getestet hat und Elecrow ein Unternehmen für Raspberry-Pi-Zubehör und Elektronik ist, ist der Beziehungskontext komplexer als bei einem bloßen Streit mit einem externen Anbieter
- Zwar ist die Rechtslage bei unbefugtem KI-Stimmklonen selbst noch unklar, doch die Nutzung der Stimme einer anderen Person ohne Zustimmung in kommerziellen Arbeiten lässt sich mit dem Fall Midler vs. Ford in Verbindung bringen
- Jeff forderte Elecrow zunächst per E-Mail zu einer Erklärung und zur Löschung der Videos auf, statt sofort Takedowns oder rechtliche Schritte einzuleiten, und ist der Ansicht, dass Unternehmen entweder Sprecher engagieren oder formelle Kooperationen eingehen sollten
Eine Jeff Geerling ähnliche Stimme in einem Elecrow-Video
- Jeff Geerling hörte einen YouTube-Clip von Elecrow und kam zu dem Schluss, dass die Erzählstimme erstaunlich vertraut nach seiner eigenen klang
- Das Video stammt nicht vom Jeff Geerling channel, sondern von Elecrow, und Jeff hat die darin enthaltenen Sätze nie gesprochen
- Jemand hatte Jeff den Link zu dem Elecrow-Video per E-Mail geschickt und darauf hingewiesen, dass der Ton seltsam klinge. Jeff hält es für möglich, dass einige Zuschauer wegen seines eigenen Kanals zum selben Thema dachten, er habe einem Stimmauftritt zugestimmt
- Elecrow ist ein Unternehmen, das Elektronik und Raspberry-Pi-Zubehör herstellt, und Jeff hatte in der Vergangenheit das CrowPi 2 von Elecrow getestet
- Zuvor gab es kein schlechtes Verhältnis zu Elecrow, weshalb Jeff noch nicht zu 100 % sicher ist, ob dies absichtlich geschah
- In der Videoversion dieses Beitrags kann man den Elecrow-Clip direkt mit Jeffs natürlicher Stimme vergleichen
Verdacht auf KI-Stimmklonen und Reaktion
- Jeff betont, dass dies schwer zu beweisen ist, hält es aber für wahrscheinlich, dass Elecrow seine YouTube-Videos in ein KI-Stimmklon-Tool eingespeist und mit der resultierenden Stimme mehrere Werbetutorials vertont hat
- Als Beispiele nennt er die ESP32-Serie und die RP2040-Serie
- Nach dem Vorfall, bei dem OpenAI die Stimme von Scarlett Johansson faktisch kopiert haben soll, hatte Jeff erwartet, dass Unternehmen bei KI-Stimmen für Produktdemos oder Tutorials vorsichtiger sein würden, doch dieser Fall widerspricht dieser Erwartung
- Soweit Jeff weiß, gibt es noch keinen klaren rechtlichen Präzedenzfall für unbefugtes KI-Stimmklonen, aber als Präzedenz dafür, dass man die Stimme einer anderen Person in kommerziellen Arbeiten nicht ohne Zustimmung verwenden darf, nennt er Midler vs. Ford
- Eine Reaktion über Anwälte wäre kostspielig, und es ist auch nicht sicher, ob nicht einvernehmliches Stimmklonen gegen die YouTube-Nutzungsbedingungen verstößt
- Jeffs Forderungen sind klar
- Man darf nicht die Stimme oder das Abbild anderer Menschen stehlen und für Produkte oder Videos verwenden
- Marken sollten Sprecher engagieren oder Content Creators für eine Zusammenarbeit bezahlen
- Jeff schrieb Elecrow eine E-Mail und bat darum, mindestens zwei Serien mit einer Jeff ähnlichen KI-Stimme offline zu nehmen
- Er fragte, ob die Stimme absichtlich so gestaltet wurde, dass sie ihm ähnelt
- Er verlangte auch eine Bestätigung, ob seine Videos oder Audioinhalte zum Training der Stimme verwendet wurden
- Statt sofort YouTube-Löschanträge oder rechtliche Schritte einzuleiten, wollte er zunächst per E-Mail beginnen, und da es zuvor keine Probleme gegeben hatte, lässt er die Möglichkeit eines ehrlichen Fehlers offen
- Allerdings steht fest, dass Elecrow Jeffs Kanal kannte
- Von 2020 bis heute gab es mehr als 43 E-Mails mit fünf Marketingmitarbeitern von Elecrow
- 22 davon stammen aus diesem Jahr
- Am 2. April 2024 schrieb ein Marketingmitarbeiter von Elecrow, man wolle über eine bezahlte Partnerschaft sprechen
- In einem Update vom 23. September antwortete der CEO von Elecrow, und Jeff veröffentlichte einen Folgebeitrag mit dieser Antwort und seinen weiteren Gedanken zum KI-Stimmklonen
1 Kommentare
Hacker-News-Kommentare
Jeder hat wohl andere Ängste in Bezug auf KI, aber besonders beängstigend ist der Fall, dass per KI gefälscht wird, als hätte jemand blasphemische Aussagen gemacht.
In meinem Land entsteht schon bei etwas, das nur wie eine sehr geringfügige Beleidigung wirkt – ob real oder eingebildet –, ein Lynchmob wegen Blasphemie. Sie kommen zusammen, lynchen jemanden und verbrennen die Leiche; während die Familie sich versteckt, das Opfer verleugnet und eine Videobotschaft veröffentlicht, in der sie dem Mob vergibt, verteilen die Täter Süßigkeiten.
Das gab es schon, bevor KI leicht zugänglich wurde. Man kann sagen, das sei „ein Thema von Entwicklungsländern“, aber es wird nicht dort haltmachen, sondern sich ausbreiten. Man kann einem Kleinkind kein Messer in die Hand drücken und ihm dann vorwerfen, jemanden erstochen zu haben.
Unabhängig von Reputation, Sicherheit oder Urheberrecht: Das kann Menschen das Leben kosten, und es gibt kein Werkzeug, um es zu kontrollieren.
https://x.com/search?q=blasphemy
Ich fürchte mich vor der Zukunft.
Solange sie eingeschränkt, reguliert oder schwer zugänglich bleiben, werden die Leute weiterhin glauben, dass Videos und Aufnahmen nicht manipulierbar sind. Wenn Voice-Cloning aber mit einer 1-Dollar-App zu einem einfachen, lustigen Streich wird und Jugendliche damit Scherzanrufe machen, kann sich dieses Bewusstsein bald in der Öffentlichkeit festsetzen.
Letzte Woche fragte mich meine 70-jährige Mutter, ob sie ihre Voicemail-Begrüßung löschen solle. Sie meinte, jemand könne damit doch ihre Stimme stehlen; vermutlich hatte sie so etwas bei Fox oder Ähnlichem gehört, was mich überrascht hat.
Ein paar Jahre werden hart, aber ich hoffe, sie gehen schnell vorbei.
Heute ist es bei Nutzern mit einer gewissen Zahl an Kommentaren sehr wahrscheinlich möglich, sie per Korrelationsanalyse zu deanonymisieren. Selbst wenn das nicht zu 100 % genau ist, kann man ihren Schreibstil stehlen. Vielleicht ist das übervorsichtig, aber es gibt keine Garantie, dass wir nicht in einen dunklen Wald hineinlaufen; und es gibt Gründe zu glauben, dass wir uns in diese Richtung bewegen.
Gleichzeitig frage ich mich, ob es nicht gerade ein Zeichen des Nicht-Aufgebens ist, sich nicht in den Schatten zurückzuziehen.
Ähnlich war es bei Social Media wie Reddit, wo es einige Jahre lang „Täter suchen“ oder „Doxxing“ gab, bis die Betreiber erkannten, dass Online-Mobs oft falschliegen, und es üblicherweise verboten.
Bis aber Gesetze verabschiedet sind oder es zum Allgemeinwissen wird, dass ein Video eher gefälscht als echt sein kann, werden viele Menschen Schaden nehmen. Es kann auch länger als 5 Jahre dauern, und ein weiteres Problem ist, dass Gesetze meist erst entstehen, nachdem jemandem ein Schaden nachgewiesen wurde.
Ich sehe nicht, warum der Einsatz von KI ein Grund sein sollte, dem Präzedenzfall Midler vs. Ford zu entgehen.
Im Gegenteil: Wenn die Stimme per KI geklont wurde, statt eine andere Synchronsprecherin die Stimme imitieren zu lassen, scheint mir die Verteidigung sogar schwächer.
In vielen anderen Bundesstaaten sind Gesetze und Rechtsprechung zum sogenannten Right of Publicity sehr uneinheitlich verteilt. Ob ein solches Konzept anerkannt und wie seine Grenzen gezogen werden sollten, ist unter den Bundesstaaten alles andere als allgemein geklärt.
„...diese Beobachtung gilt für Gesang, insbesondere für den Gesang berühmter Sänger. Eine Sängerin offenbart sich in ihrem Lied. Ihre Stimme nachzuahmen heißt, ihre Identität zu plündern...“
„Wir müssen nicht entscheiden – und tun es auch nicht –, dass jede Stimmenimitation in der Werbung für Produkte klagbar ist. Wir entscheiden lediglich, dass ein Verkäufer sich etwas aneignet, das ihm nicht gehört, wenn er die unverwechselbare Stimme einer weithin bekannten professionellen Sängerin absichtlich imitiert, um ein Produkt zu verkaufen...“
Danke für den Hinweis auf die Rechtsprechung, aber Präzedenzfälle sind nur der Ausgangspunkt; letztlich müssen wir Prinzipien entwickeln, die über die Rechtsprechung hinausgehen.
Wenn Technologie beispiellose Fähigkeiten hervorbringt, kann die Gesellschaft entweder Grenzen ziehen, damit sie für Menschen nicht nachteilig, sondern vorteilhaft wirkt – oder zulassen, dass wir uns weiter einer Welt annähern, in der die Mächtigen tun, was sie wollen, und die Schwachen oder Leute, die sich gerade so einen Camry leisten können, damit klarkommen müssen.
Er befindet sich noch in der Ausarbeitung im Repräsentantenhaus, hat aber Unterstützung beider Parteien. Man kann seine Abgeordneten kontaktieren und sie bitten, ihn mit einzubringen oder dafür zu stimmen.
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
Man müsste eine politische Non-Profit-Organisation wie die ACLU finden, die die Kosten für wiederholte Berufungen trägt, und währenddessen negative Berichterstattung und Aufmerksamkeit aushalten.
Ich stimme völlig zu, dass die Camry-Schicht Fürsprecher braucht, aber eines der Kernprinzipien moderner Praxis ist, dass Menschen selbst wählen dürfen sollten, welches Maß an Beitrag sie sich leisten können. Man sollte ermutigen, unterstützen und Mut machen, aber nicht beschämen.
Jedenfalls dürfte schon dieser Blogbeitrag ausreichen. Kaum jemand stellt sich auf die Seite derer, die menschliche Stimmen stehlen; anders als beim Scraping der NYT oder von deviantart-Archiven als Trainingsdaten fühlt sich das intuitiv deutlich unangenehmer an. Öffentliches An-den-Pranger-Stellen wird keine großen Schadensersatzzahlungen bringen, aber das war wohl auch nicht das Ziel.
Wenn große Sprachmodelle die ultimative Remix-Maschine sind, fragt man sich, ob jeder mit Retrieval-Augmented Generation (RAG) ein digitaler DJ ist.
Bei digitalen Informationen ist es nicht einmal mehr leicht zu wissen, was Diebstahl überhaupt ist. Es gibt zu wenig Rechtsprechung, sodass es sich anfühlt wie der Wilde Westen des geistigen Eigentums und Urheberrechts.
Wenn selbst ein Superstar wie Scarlett Johansson kaum mehr tun kann, als einen schmerzvollen Brief darüber zu schreiben, dass OpenAI versucht habe, ihre „Her“-Persona nachzuahmen, was kann dann ein vergleichsweise gewöhnlicher Nischen-Nerd tun?
Wahrscheinlich läuft es darauf hinaus, dass man wie Geerling ebenso traurig, wütend und frustriert ist und sagt: „Bitte haltet euch in gutem Glauben an einen Ehrenkodex.“
In solchen Fällen kann man diese Bekanntheit auch zur Vergeltung nutzen. Es ist zum Beispiel schwer vorstellbar, dass diese Sache am Ende gut für Elecrows Ruf ist. Wenn ich den Firmennamen das nächste Mal sehe, werde ich denken: „Ach, die Firma, die Leute täuscht“, und das ist nicht gut für sie.
Noch beunruhigender ist der Einsatz, um jemanden loszuwerden, den man nicht mag. Man kann sich etwa vorstellen, dass ein Hochschuldozent nichts falsch gemacht hat, aber ein Student, der mit seiner Note unzufrieden ist, Voice Cloning nutzt, um es so aussehen zu lassen, als hätte der Dozent etwas gesagt, wofür er entlassen werden könnte. Wenn Voice Cloning sehr gut wird, wie soll sich so jemand verteidigen? Schwierig, bis solche Fälschungen so verbreitet sind, dass Aufnahmen selbst nicht mehr als vertrauenswürdig gelten.
Für Diebstahl müsste gelten, dass das Opfer den Nutzen des gestohlenen Gegenstands verliert. Copy-and-paste sprengt lediglich ein Kartenhaus-System, das Menschen mit Gefängnis und Armut bedroht, wenn sie behauptete Memes nutzen und nicht zahlen.
Wenn ich in einem Urheberrechtsverfahren Geschworener wäre, in dem der Beklagte kein Unternehmen, sondern ein Mensch ist, würde ich immer auf Jury Nullification setzen.
Hat Eric Schmidt nicht kürzlich gesagt, man solle erst einmal stehlen und, falls man Erfolg hat, die Anwälte später alles regeln lassen?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] Genauer gesagt meinte er wohl, man solle legal stehlen, aber was das bedeuten soll, weiß ich nicht.
Wenn die Welt ständig von unten springt und tritt, um einen abzuwerfen, steht man vielleicht am falschen Ort.
Für Objekte mit einer
.copy()-Schnittstelle ist Diebstahl nicht definiert. Wenn man genauer hinsieht, existiert er trotzdem noch.Die Leute sollten nicht das Gesetz, sondern ihre Erwartungen anpassen. Computer haben Kassierer ersetzt, und jetzt ersetzt Stimm-Schauspiel die Synchronsprecher. Popularität bedeutet eigentlich nicht viel, und wenn nur beliebte Menschen ihre Jobs behalten können, ist das nicht auch unfair?
Selbst wenn man den AI-Teil außen vor lässt, wirkt es so, als hätten sie Jeffs Meinung massiv verzerrt oder sein Bild ohne Erlaubnis verwendet.
Durch die Nutzung seiner Stimme erzeugen sie eine implizite und manipulierte Empfehlung für das Produkt, was sich sehr falsch anfühlt. Für solche Fälle dürfte es schon lange vor AI Gesetze gegeben haben.
Es gab schon früher Menschen, die Stimmen gut imitieren konnten, und meistens nutzten sie diese Fähigkeit für Comedy oder Satire, nicht um die Ansichten anderer zu verfälschen. Ich bin kein Jurist, aber das scheint mir auf einer ziemlich soliden rechtlichen Grundlage zu stehen, und jemanden falsch darzustellen dürfte rechtlich vergleichsweise leicht zu behandeln sein.
Der Unterschied ist die Demokratisierung. Früher hatten nur sehr wenige Menschen diese Fähigkeit; jetzt kann fast jeder mit einem Computer etwas Ähnliches tun. Dadurch wird die Durchsetzung viel schwieriger, und wenn rechtliche Schritte nötig sind, dürfte das für jemanden wie Jeff Geerling kaum zu stemmen sein.
Vielleicht bin ich da komisch, aber ich finde nicht, dass die Stimme seiner so stark ähnelt.
Sie ist ein bisschen ähnlich, aber anders, etwas höher, nasaler und auch die Intonation ist etwas anders.
https://www.youtube.com/watch?v=UMofZIT9FcQ
Die erwähnten Unterschiede bei Intonation und Tonhöhe entstehen einfach dadurch, dass es eine AI-generierte Stimme ist und keine menschliche Äußerung.
Vermutlich wäre deren Darstellung, dass sie angenehmere Stimmen beigemischt haben, um genug Unterscheidbarkeit zu schaffen.
Die Frage ist, wer entscheidet, wie unterschiedlich es sein muss, um nicht mehr unter Missbrauch von Bild- bzw. Stimmähnlichkeit zu fallen. Der „König der generischen Nerd-Stimme“ behauptet eine übermäßige Ähnlichkeit, und die verdächtigte Seite wird den gesamten Prozess nicht offenlegen.
Auch das Tuning von AI-Stimmen nach Gehör wird bald möglich sein, also ist man nicht sicher, nur weil man verlangt, als repräsentative Stimme eines bestimmten Bereichs vom Training ausgenommen zu werden. So etwas wie eine Stimmen-Autoritätsbehörde klingt düster.
Als kleiner Tech-YouTuber hatte ich auch schon Kontakt mit Elecrow.
Soweit ich weiß, erhalten Mitarbeiter nicht nur bei Elecrow, sondern auch bei mehreren anderen Firmen Prämien, Beförderungen oder Provisionen, wenn sie langfristige Partnerschaften oder Video-Kooperationen mit YouTubern zustande bringen. Jemand könnte gedacht haben, es sei clever, Jeffs Stimme zu klonen, weil sein Kanal in diesem Bereich ziemlich bekannt ist.
Für Elecrow ist das jetzt sicher keine gute PR, und ich bin gespannt, ob sie einräumen werden, dass es Absicht war.
Die Vorstellung, dass der Tonfall einer gestohlenen Stimme wichtig wäre, ist einer der kurzsichtigsten Aspekte von AI-Investitionen. Dahinter steckt gewissermaßen die Hollywood-Denke „Bloß nie etwas Neues schaffen“
In etwa fünf Jahren werden AI-Stimmen personalisiert sein und angenehmer klingen als echte Menschen. Sie sind nicht durch Stimmband-Ermüdung begrenzt, lassen sich beliebig verändern und durch Messung der Nutzerbeteiligung leicht nachjustieren
Künftig wird es vor allem darum gehen, die Sprachausgabe fein abzustimmen und die Beteiligung zu beobachten
Genau deshalb haben sie seine Stimme ausgewählt
AI-Stimmen mögen ästhetisch ununterscheidbar sein oder sogar bevorzugt werden, aber Reputation oder Authentizität tragen sie nicht in sich. Diese sind von Natur aus knapp und deshalb wertvoll. In einem Meer generischer, zur Massenware gewordener Billig-Inhalte dürfte die Nachfrage nach Personen mit eigenem Markenwert eher steigen als sinken. Genau deshalb verdienen Influencer heute in der Werbung so viel Geld
„Schulung“, aha
Schon jetzt bieten sie mehrere Voice-Cloning-Verfahren an, beginnend mit 30 Sekunden Spracheingabe. Die 30-Sekunden-Variante ähnelt der Zielstimme einigermaßen, ist aber nicht völlig identisch; wenn man mehrere Stunden Audiomaterial einspeist, klingt es wie ein echter Mensch. Außerdem kann man die Stimme über einige Parameter anpassen oder allein über Parameterdefinitionen eine neue erstellen
Die Stimme im Video könnte der Qualität nach eine „Instant Clone“-Stimme sein, die aus nur wenigen Sekunden Eingabe erzeugt wurde. Für fortgeschritteneres Cloning muss man nachweisen, dass es die eigene Stimme ist
[1] https://elevenlabs.io
In so einer Situation könnten Unternehmen versuchen, deren Stimmen zu kaufen. Es geht nicht nur darum, dass sie angenehm klingen, sondern der Wert der Vertrautheit ist groß. ElevenLabs hat zum Beispiel auch Stimmrechte von Verstorbenen von deren Hinterbliebenen gekauft
Abgesehen von solchen speziellen, nostalgisch geprägten Kontexten sehe ich aber keinen Grund, nicht von Anfang an eine synthetische Stimme zu erstellen
Alle werden es für Spaß halten, bis jemand eine Aufnahme erzeugt, in der eine andere Person scheinbar ein Verbrechen gesteht, und sie vor Gericht verwendet wird
Genau das ist der Teil an AI, den ich nicht mag
Aber was sollen wir tun, wenn Video- und Audiobeweise unzulässig werden?
Allerdings scheinen beide Fälle eher vor dem Gericht der öffentlichen Meinung wichtiger zu sein als vor einem echten Gericht
Bei der Bewertung einer neuen nützlichen Technologie dürfte die Bewahrung von Beweisformaten kaum das Hauptanliegen sein
Da es Hunderte Tools zum Voice Cloning gibt, ist es nur natürlich, dass Inhalte mit geklonten Stimmen auftauchen
Das ist ähnlich wie bei der unbefugten Nutzung des Bildes einer Person. Für Plattformen und Moderationsteams gibt es bereits Verfahren zum Melden und Entfernen. Für Stimmen scheint etwas Ähnliches nötig zu sein