- Die Komikerin und Autorin Sarah Silverman hat gemeinsam mit Christopher Golden und Richard Kadrey jeweils Klage gegen OpenAI und Meta vor einem US-Bundesgericht eingereicht
- Im Zentrum steht die Frage, ob ChatGPT und LLaMA mit Datensätzen trainiert wurden, die Bücher ohne Zustimmung der Autoren enthielten
- Die Kläger gehen davon aus, dass über shadow libraries wie Bibliotik, Library Genesis und Z-Library illegal beschaffte Bücher massenhaft per Torrent verbreitet wurden
- In der Klage gegen OpenAI wird ein Fall angeführt, in dem ChatGPT Bedwetter, Ararat und Sandman Slim zusammenfasste, was als Indiz für die Nutzung von Trainingsdaten gewertet wird
- Die Klage gegen Meta stellt mit Verweis auf ThePile und EleutherAI die Möglichkeit infrage, dass die Bücher der Kläger im für das Training von LLaMA verwendeten Datensatz enthalten waren
Beklagte und zentrale Streitfrage
- Sarah Silverman, Christopher Golden und Richard Kadrey haben jeweils Klage gegen OpenAI und Meta vor einem US-Bundesgericht eingereicht
- Im Mittelpunkt beider Klagen steht die Frage einer Urheberrechtsverletzung
- Die Kläger behaupten, dass ChatGPT von OpenAI und LLaMA von Meta mit Datensätzen trainiert wurden, die auch ihre Werke enthielten
- Die zentrale Streitfrage ist, ob diese Datensätze ohne Zustimmung der Autoren beschafft wurden
Streit um die Herkunft der Trainingsdaten
- In den Klagen wird behauptet, dass die zum Training von ChatGPT und LLaMA verwendeten Datensätze rechtswidrig beschafft wurden
- Die von den Klägern genannten shadow library-Seiten sind:
- Bibliotik
- Library Genesis
- Z-Library
- weitere ähnliche Seiten
- Ebenfalls problematisiert wird, dass diese Bücher in großem Umfang über ein Torrent-System bereitgestellt wurden
In der Klage gegen OpenAI angeführte Beispiele
- Die Kläger führen als Beleg Fälle an, in denen ChatGPT auf Prompt ihre Bücher zusammenfasste
- Zu den in den Belegen genannten Büchern gehören:
- Bedwetter von Sarah Silverman
- Ararat von Christopher Golden
- Sandman Slim von Richard Kadrey
- In der Klage wird außerdem behauptet, dass ChatGPT die in den veröffentlichten Werken der Kläger enthaltenen Informationen zur Rechteverwaltung nicht reproduziert habe
Fokus der Klage gegen Meta
- Eine separate Klage gegen Meta geht davon aus, dass die Bücher der Kläger im Trainingsdatensatz von LLaMA zugänglich waren
- LLaMA wird als eine Reihe von vier Open-Source-AI-Modellen beschrieben, die Meta im Februar veröffentlicht hat
- In der Klageschrift wird ThePile als eine der in Metas LLaMA-Paper genannten Quellen für Trainingsdatensätze problematisiert
- ThePile wird als ein von EleutherAI zusammengestellter Datensatz erwähnt
Reaktionen der Beteiligten
- Christopher Golden und Richard Kadrey lehnten eine Stellungnahme zu den Klagen ab
- Sarah Silvermans Seite reagierte bis zum Zeitpunkt der Berichterstattung nicht
1 Kommentare
Hacker-News-Kommentare
Im Grunde haben die AI-Entwickler damit ausdrücklich gesagt, dass sie tatsächlich urheberrechtlich geschützte Werke verwendet haben, die von Buch-Piraterie-Websites stammen.
Wenn man von so einer Website auch nur ein einziges Buch herunterlädt, kann man verklagt und wegen Rechtsverletzung verurteilt werden; wenn man alles herunterlädt, könnte man für Schadenersatz in Milliardenhöhe haften.
Aber Unternehmen wie Google oder Facebook scheinen nach anderen Regeln zu spielen. Es ist ein bisschen wie: Tötet man einen Menschen, ist man ein Mörder; tötet man eine Million, wird die Frage danach zu einer „Fangfrage“, auf die man mit Empörung reagieren kann.
Das Urheberrecht über Nacht abzuschaffen, wäre vielleicht ein zu großer Schock, aber je mehr wir seinen Einfluss verringern, desto viel besser wird die Welt und desto schneller wird sie sich entwickeln.
Im Jahr 2023 besitzt mehr als die Hälfte der Weltbevölkerung ein Smartphone. Man kann sich eine Welt vorstellen, in der mehr als die Hälfte der Menschen Zugang zu allen digitalisierten Büchern hat und ihre Kinder mit diesen Büchern aufziehen kann.
ImageNet ist voller urheberrechtlich geschützter Bilder, Clearview hat buchstäblich Gesichter aus dem Internet gescrapt, und vermutlich gibt es noch ältere Beispiele.
Ich weiß nicht, ob US-Gerichte das schon einmal als Fair Use eingestuft haben, aber falls nicht, halte ich es für wahrscheinlich, dass sie es am Ende tun werden.
Solange man nichts wieder teilt, kann man von Z-Library oder BitTorrent so viel herunterladen, wie man möchte.
Urheberrechtlich geschütztes Material für die Suche zu indexieren, ist ebenfalls sicher oder zumindest eine Grauzone.
Man kann eine Abmahnung bzw. Verletzungsmitteilung bekommen, und wenn man es wirklich übertreibt, kann der Internetanbieter den Dienst kündigen, aber ich habe noch nie von einem Fall gehört, in dem jemand tatsächlich nur deshalb verklagt wurde, weil er etwas heruntergeladen hat.
Ich hoffe sehr, dass die Gerichte LLM-Gewichte und Datensätze als „Fair Use“ oder unter irgendeiner anderen lächerlichen juristischen Begründung anerkennen.
Aaron Swartz war ein erwachsener Mensch.
Es ist gut möglich, dass Silvermans Buch im Books2-Datensatz enthalten ist, aber dieser Satz in der Klageschrift wirkt eindeutig falsch.
Erstens könnte das Modell gelernt haben, eine Zusammenfassung zu erstellen, indem es andere öffentlich zugängliche Zusammenfassungen gelesen hat, etwa die Wikipedia-Seite, selbst wenn es während des Trainings kein einziges Wort aus dem Buchtext gesehen hat.
Zweitens ist nicht klar, ob ein Modell, das nur den Buchtext gesehen hat, aber keine Beschreibung oder Zusammenfassung des Buchs, tatsächlich gut zusammenfassen könnte.
Um das zu prüfen, könnte man ein Buch auswählen, das bei Project Gutenberg verfügbar ist und laut Klageschrift zu Books1 gehört, also in den Trainingsdaten von ChatGPT enthalten war, über das es online aber kaum Diskussionen gibt. Wenn die Fähigkeit zur Zusammenfassung daher kommt, dass das Buch selbst im Training enthalten war, müsste es seltene Bücher genauso gut zusammenfassen können wie Silvermans Buch.
Ich habe willkürlich The Ruby of Kishmoor ausgewählt, ein Buch, das 2003 zu Project Gutenberg hinzugefügt wurde. Das auf GPT-3.5 basierende ChatGPT halluzinierte eine Zusammenfassung, in der sogar die Hauptfiguren falsch waren, und GPT-4 weigerte sich sogar, es zu versuchen, mit der Begründung, die Geschichte nicht zu kennen.
Wenn ChatGPT Silvermans Buch zusammenfassen kann, weil genau dieses Buch in den Trainingsdaten war, fragt man sich, warum es bei anderen Büchern nicht dasselbe kann.
Prompt: Bitte fasse das folgende Buch aus Project Gutenberg zusammen — The Ruby of Kishmoor
Die Antwort beschreibt es als eine kurze Abenteuergeschichte von Howard Pyle, in der Jonathan Rugg von einem geheimnisvollen Fremden in die Karibik gelockt wird, um ein kostbares Artefakt, den Ruby of Kishmoor, zu erlangen.
Nach seiner Ankunft in der Karibik erfährt er, dass auf dem Rubin ein schwerer Fluch liegt, doch aus Neugier und wegen der Aussicht auf großen Reichtum nimmt er das Risiko auf sich und jagt dem Edelstein nach. Nach mehreren Herausforderungen findet er den Rubin der Zusammenfassung zufolge nicht durch eine systematische Suche, sondern durch reines Glück.
Sie fasst weiter zusammen, dass die Geschichte auf der Reise menschliche Gier und die Frage erkundet, wie weit Menschen für materiellen Gewinn gehen, und dass sie Abenteuer, übernatürliche Elemente, Mut und moralische Reflexion verbindet, sodass man den wahren Wert materieller Bestrebungen überdenkt.
Am Ende entkommt Jonathan demnach mit dem Rubin, zahlt aber einen hohen persönlichen Preis und hinterlässt Fragen nach dem wahren Wert des Lebens und materieller Bestrebungen.
Man behauptet, dass es Gründe gibt, dies für wahr zu halten, und kann es nun im Verfahren direkt überprüfen.
Ich habe aufgrund eines anderen Beitrags GPT-4 ebenfalls gebeten, The Ruby of Kishmoor zusammenzufassen, und nach zweimaligem Nachfragen lieferte es eine Zusammenfassung. Da ich das Buch nicht kenne, kann ich nicht beurteilen, ob sie korrekt ist, aber zumindest ist dieser Test damit zusammengebrochen.
Es wirkt ziemlich naiv anzunehmen, dass ChatGPT das Urheberrecht selbstverständlich respektiert hätte und urheberrechtlich geschütztes Material nicht ohne Erlaubnis gescannt hätte. Die Discovery könnte die Antwort liefern. Es sollte Protokolle darüber geben, was gescannt wurde.
Das bessere Argument scheint mir zu sein, dass es sich hierbei um Fair Use handelt.
Mehr Leute dürften darüber diskutiert haben, und es dürften auch mehr Zusammenfassungen auf persönlichen Websites oder anderswo stehen.
Wenn es plausibel ist, kann es in die Discovery gehen, und die Discovery bringt einen näher an die tatsächlichen Fakten.
Dieser Fall ist ziemlich interessant, weil er zwischen Trainingsmaterial unterscheidet, das für jeden mit einem Webbrowser zugänglich ist, etwa persönliche Blogs, und Trainingsmaterial, das „rechtswidrig beschafft und massenhaft über ein Torrent-System bereitgestellt“ wurde.
Ich bin mir nicht sicher, warum diese Unterscheidung im Zusammenhang mit der Verbreitung von LLMs rechtlich wichtig sein sollte. Denn auch die Blog-Autoren haben nicht zugestimmt.
Allerdings frage ich mich, ob es rechtliche Probleme gibt, wenn man Raubkopie-Torrents fürs Training verwendet. Die Verbreitung eines LLM, das mit urheberrechtlich geschütztem Material trainiert wurde, ist als Fair Use erlaubt; aber gibt es eine rechtliche Grundlage dafür zu sagen, dass man verkaufte Inhalte zuerst kaufen muss, damit es legal ist? Etwa nach dem Muster: Blogbeiträge sind frei zugänglich, also in Ordnung, aber Sarah Silvermans Buch wurde nie kostenlos veröffentlicht und man hat auch nicht dafür bezahlt, also geht es nicht.
Oder kümmert es Gerichte überhaupt nicht, wie etwas entstanden ist? Wenn man in einem Freelancer-Text eine Passage aus einem Buch zitiert, wird man auch nicht gefragt, ob man das Buch gekauft hat, ob man nachweisen kann, dass man es aus der Bibliothek oder von einem Freund geliehen hat, oder ob man eine digitale Kopie illegal heruntergeladen hat.
Ob man den Text gekauft oder raubkopiert hat, wird keine Rolle spielen. So ähnlich wie es heute beim Einmischen eines Audiotracks in einen Filmsoundtrack nicht der Kernpunkt ist, ob man diesen Track gekauft oder raubkopiert hat.
Entertainment-Agenturen werden pauschal die Gebühren für Trainingsrechte beliebter Kreativer verhandeln, und die Kreativen werden einen kleinen Einnahmestrom erhalten, den LLM-Anbieter auf ihre API-Kostenpositionen aufschlagen.
Die Trainingsrechte unabhängiger Kreativer werden wie bisher massenhaft verletzt werden, und große kommerzielle LLMs, bei denen eine Verletzung von Trainingsrechten vermutet oder nachgewiesen wird, werden an den Pranger gestellt oder verklagt werden. Unabhängige LLMs dürften eher unter dem Radar bleiben.
Wenn es für das Originalwerk also praktisch keinen kommerziellen Markt gibt, ist es wahrscheinlicher, dass ein Gericht Fair Use anerkennt. Allerdings ist die bloße Tatsache, dass etwas nicht aktiv verkauft wird, nicht allein entscheidend.
Auch Open-Source-Lizenzen stellen Inhalte kostenlos bereit, haben aber vor Berufungsgerichten Bestand gehabt.
Unklar ist, bis zu welchem Grad das als Weiterverbreitung gilt. Ebenso unklar ist, ob es einen großen Unterschied zwischen diesem Modell und einer VCR-artigen Maschine gibt, die auf Knopfdruck das Originalwerk neu erzeugt.
Wenn das Herunterladen „raubkopierter“ urheberrechtlich geschützter Materialien illegal ist, dann ist das die Straftat, und der Rest ist weitgehend irrelevant. Es ist nicht illegal, jemandem die Handlung eines Films zu erzählen, nur weil man eine Raubkopie des Films gesehen hat.
Wenn ein Werk legal nur durch Kauf erhältlich ist, muss man es selbst legal gekauft haben oder eine Kopie von jemandem erhalten haben, der es so gekauft hat. Zum Beispiel als Geschenk.
Ich bin mir nicht sicher, ob wir dieselbe Klageschrift lesen.
In Metas Paper https://arxiv.org/pdf/2302.13971.pdf steht, dass der Trainingsdatensatz zwei Buchkorpora enthielt. Eines ist Project Gutenberg mit gemeinfreien Büchern, das andere ist der Books3-Abschnitt von The Pile.
Das The-Pile-Paper https://arxiv.org/abs/2101.00027 beschreibt Books3 als einen Buchdatensatz, der aus einer Kopie der Inhalte des privaten Trackers Bibliotik abgeleitet wurde.
Shawn Pressers Link ist https://twitter.com/theshawwn/status/1320282149329784833, und er beschreibt Books3 als „all of bibliotik“, also 196.640 Bücher, umgewandelt in normales
.txt.Ich habe weder Zeit noch Speicherplatz, um die 37-GB-Datei herunterzuladen, aber wenn Silvermans Buch darin enthalten ist, scheint das ein klarer Siegfall zu sein.
Metas LLaMA wurde, wie sie offenbar selbst einräumen, mit raubkopierten Büchern trainiert.
$ grep -i "Sarah Silverman" books3.list.txtergibt325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt.Für alle, die nur die Dateiliste sehen wollen, gibt es auch einen Link. Die Liste selbst ist ebenfalls eine große Datei: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
Wenn das anfängliche Training erforderte, eine Kopie des vom Tracker definierten Korpus anzulegen, dann ist es fast ein eindeutiger Fall, dass es in diesem Prozess eine urheberrechtsverletzende Handlung gab.
Aber ob Silverman über den Kaufpreis des Buchs hinaus, vielleicht bis hin zu dreifachem Schadensersatz, irgendeine Abhilfe bekommen kann, hängt letztlich von derselben Frage ab: dem Verhältnis zwischen Modelltraining und Urheberrecht.
Dazu kommt noch der zusätzliche Streitpunkt, ob der illegale Status des Materials vor dem Training diese Bewertung verändert.
Dieses Problem dürfte größer werden, als manche denken.
Es könnte ein Markt für saubere Trainingsdaten entstehen, bei denen es keine potenziellen Urheberrechtsansprüche gibt. Etwa indem man nur gemeinfreie Werke verwendet.
Wird man dann merken, dass es KI ist, weil sie wie Autoren des späten 18. oder frühen 19. Jahrhunderts spricht?
Allerdings könnten Modelle Probleme bekommen, die bereitwillig vollständige urheberrechtlich geschützte Texte reproduzieren, und es gibt auch neue Streitpunkte wie Modelle, die verleumderische Inhalte halluzinieren.
Trotzdem scheint es schwierig, diesen Geist wieder in die Flasche zu bekommen. Künftig werden wohl viele Klagen, Alignment-Arbeit und neue Arten von Missbrauch zusammen auftreten.
Für Künstler, Autoren und Dichter, denen es nichts ausmacht, wenn ihr geistiges Eigentum in Trainingssets verwendet wird, könnte das eine kleine, aber echte Quelle passiven Einkommens sein.
Mit jedem Schöpfer einzeln zu verhandeln, ist unrealistisch; bei größeren Gruppen wie Verlagen, Galerien, Gilden oder Gewerkschaften, die die Qualität ihrer Mitglieder gewährleisten können, scheint es aber machbar. Sie könnten Lizenzen anbieten und die Einnahmen mit allen Mitgliedern teilen.
Dass LLMs diese Daten ohne Zustimmung oder Vertrag einfach komplett aufsaugen, sogar von Torrent-Sites, ist eindeutig unethisch. Ein solches Modell könnte allen nützen.
Danach wird es entweder überhaupt kein Problem mehr sein oder zu einer deutlich leichter verständlichen Kosten-Nutzen-Abwägung werden.
Es könnte auch auf eine Mischung aus gemeinfreien Werken und Veröffentlichungen der US-Regierung hinauslaufen. Veröffentlichungen der US-Regierung sind kategorisch nicht urheberrechtlich geschützt.
Japan hat sich bereits zu einer solchen Jurisdiktion erklärt.
Ich bin kein Anwalt, aber das wirkt nicht wie ein gutes Beispiel, um eine Verletzung nachzuweisen.
Eine ausführliche Zusammenfassung eines Buchs klingt nach klassischer transformativer Nutzung. Gerade bei Silverman gilt: Je mehr man die künstlerischen Elemente der Prosa entfernt und das Buch auf „Fakten“ reduziert, desto schwerer wird es, daraus einen direkten Ersatz für das Original zu machen.
Dass rechtswidrig beschafftes Material in einem kommerziellen Geschäft verwendet wurde und dieses Geschäft ein KI-Modell war, ist vielleicht zweitrangig. Man kann kein Geschäft betreiben und dabei rechtswidrig beschafftes Material verwenden.
Ein Mensch kann etwas lesen, studieren und anschließend ein anderes Ergebnis hervorbringen.
Aber „Daten in eine Maschine zu füttern“ wirkt wie eine klare Verletzung, selbst wenn am anderen Ende nicht exakt dasselbe herauskommt.
Wie hoch wäre der Schaden dadurch? Etwa der Ladenpreis eines Hardcover-Buchs?
Selbst wenn man die Frage beiseitelässt, ob ein LLM ein abgeleitetes Werk der gesamten Trainingsmenge ist, wirkt diese Behauptung sehr schwach.
Selbst wenn das Werk selbst überhaupt nicht im Trainingsset gewesen wäre, könnte ein LLM, das mit mehreren Zusammenfassungen dieses Werks trainiert wurde, selbst solche Zusammenfassungen erstellen.
Im Allgemeinen ist die Tatsache, Wissen über etwas zu haben, kein Beweis dafür, dass man damit trainiert wurde.
Man könnte LLM-Experten und die OpenAI-Seite fragen, ob es wahrscheinlich ist, dass diese Ausgabe von dem fraglichen urheberrechtlich geschützten Werk abgeleitet wurde.
Wenn die Argumentation ohnehin lautet: „Nein, es stammt nicht aus dem Buch, sondern aus der urheberrechtlich geschützten Zusammenfassung eines anderen“, heißt das dann nicht, dass der Verfasser dieser Zusammenfassung stattdessen wegen Urheberrechtsverletzung klagen müsste? Es sei denn, OpenAI sagt: „Eigentlich war es nicht die Zusammenfassung, sondern das ganze Buch.“
Wir haben Tausende von Werken gelesen; heißt das dann, dass alles, was wir schreiben, ein Derivat ist?
Überzeugenderer Beweis wäre gewesen, ChatGPT dazu zu bringen, nicht eine Zusammenfassung, sondern Teile des Textes unverändert auszugeben.
Als ich es selbst versucht habe, antwortete es sinngemäß, dass es keinen Zugriff auf bestimmte externe Datenbanken oder Bücher nach seinem Wissensstand von September 2021 habe und keine wörtlichen Zitate aus Sarah Silvermans The Bedwetter oder anderen konkreten Texten liefern könne.
Es sagte aber, es könne auf Basis seines Trainings und Wissens bis zu diesem Zeitpunkt Text erzeugen und man solle Fragen zu Sarah Silverman oder verwandten Themen stellen.
OpenAI scheint zu wissen, dass seine Software urheberrechtlich geschütztes Material ausgibt, und hat offenbar eilig einen Filter davor gesetzt.
Dass es ein Buch nicht ausgibt, wenn man jetzt danach fragt, ist daher kein Beweis dafür, dass die KI diese großen Brocken nicht auswendig gelernt hat. Es könnte einfach ein Sicherheitsfilter greifen, und vielleicht braucht es nur eine einfache Umgehung.
Es sieht so aus, als würden die Entwickler filtern.
Wie soll man deiner Meinung nach Exabytes an Textdaten in ein neuronales Netz von Gigabyte-Größe stecken? Genau: verlustbehaftete Kompression.
Ist es nicht viel wahrscheinlicher, dass im Trainingsset viele Rezensionen und Zusammenfassungen enthalten waren und das Modell daraus selbst etwas synthetisiert hat?
Es fällt schwer zu glauben, dass diese KI-Firmen auch nur ein bisschen vorsichtig mit den Daten umgehen, die sie fürs Training aufsaugen
Vielleicht ließe sich das bis zu einem gewissen Grad testen, indem man nach Zusammenfassungen von Büchern oder Texten fragt, die nur in Shadow Libraries verfügbar sind
Dass Getty Images ebenfalls eine KI-Klage gegen Stability AI eingereicht hat, ist schon etwas witzig. Karma?
Wenn Getty von anderen stiehlt, ist das okay, aber wenn andere von Getty stehlen, nicht? Ich habe in diesem Streit kein eigenes Interesse, aber die Heuchelei solcher Firmen ist wirklich enorm