- Die New York Times hat gegen OpenAI-Tochtergesellschaften und Microsoft eine Copyright-Klage eingereicht, weil diese ihre Inhalte ohne Genehmigung für Training und Ausgaben genutzt hätten; gefordert wird sogar die Löschung von GPT-Instanzen und Trainingsdatensätzen
- Kernfrage ist nicht nur das Modelltraining selbst, sondern auch, ob GPT-basierte Tools Inhalte kostenpflichtiger Times-Artikel nahezu wortgleich wiedergeben und damit die Paywall umgehen können
- Die Times behauptet, Common Crawl enthalte 16 Millionen eindeutige Datensätze ihrer Website und sie sei in den öffentlich bekannten Trainingsdaten vor GPT-3.5 die am dritthäufigsten referenzierte Quelle gewesen
- In Tests von Ars Technica schien diese Umgehung bei ChatGPT blockiert zu sein, Copilot gab jedoch auf Anfrage nach dem ersten Absatz eines bestimmten Times-Artikels einen erheblichen Teil des Artikelanfangs wieder
- Die Klage umfasst Ansprüche wegen Copyright-Verletzung, DMCA, Markenrecht und unlauterem Wettbewerb und fordert eine dauerhafte Unterlassungsverfügung, Schadenersatz, Rückgabe und Abschöpfung ungerechtfertigter Gewinne
Beklagte und zentrale Forderungen
- Die New York Times hat gegen mehrere mit OpenAI verbundene Unternehmen und Microsoft Klage wegen Copyright-Verletzung eingereicht
- Microsoft wurde als Partner von OpenAI in die Klage einbezogen, weil das Unternehmen den Copilot-Dienst mit OpenAI-Technologie betreibt und an der Bereitstellung der Infrastruktur für das Training großer GPT-Sprachmodelle beteiligt gewesen sein soll
- Zu den Forderungen gehören die Löschung aller mit Times-Material trainierten GPT-Instanzen sowie die Vernichtung der für das Training verwendeten Datensätze
- Außerdem wird eine dauerhafte Unterlassungsverfügung gefordert, um ähnliche Handlungen künftig zu verhindern
- Die finanziellen Rechtsbehelfe umfassen gesetzlichen Schadenersatz, kompensatorischen Schadenersatz, Rückgabe, Abschöpfung ungerechtfertigter Gewinne sowie weitere nach Gesetz oder Billigkeitsrecht verfügbare Rechtsbehelfe
Die Schadensstruktur aus Sicht der Times
- Die Times argumentiert, sie unterhalte viele Journalisten und Rechercheteams, berichte über zahlreiche Themen und führe investigative Recherchen durch; dadurch gelte sie in vielen Fragen als maßgebliche Quelle
- Um die Kosten dieser Berichterstattung zu refinanzieren, beschränkt die Times den Zugriff auf Artikel durch eine starke Paywall
- Über Copyright-Hinweise in der Printausgabe, Nutzungsbedingungen mit Einschränkungen für Vervielfältigung und Nutzung sowie eine selektive Lizenzierungspolitik kontrolliert sie die Nutzung ihrer Werke
- Der zentrale Schadensgedanke der Klage lautet: Wenn OpenAI-Tools Times-Inhalte ohne Erlaubnis bereitstellen, werde die Beziehung zu den Lesern beschädigt und Einnahmen aus Abonnements, Lizenzen, Werbung und Partnerschaften würden entzogen
Streitpunkte zur Nutzung von Trainingsdaten
- Die Times behauptet, ihre Inhalte seien beim Training mehrerer GPT-Versionen ohne Genehmigung verwendet worden
- Vor GPT-3.5 waren Informationen zu Trainingsdatensätzen öffentlich; einer davon, Common Crawl, soll 16 Millionen eindeutige Datensätze von der Times-Website enthalten haben
- Nach diesem Maßstab war die Times nach Wikipedia und der US-Patentdatenbank die am dritthäufigsten referenzierte Quelle
- OpenAI veröffentlicht zu neueren GPT-Versionen kaum noch Details zu Trainingsdaten, doch die Klage führt Indizien an, dass vollständige Times-Artikel weiterhin in den Trainingsprozess einbezogen wurden
- Im weiteren Verfahren könnten Informationen über den Zugriff auf Trainingsdaten zu einem wichtigen Thema der Discovery werden
Das Reproduktionsproblem bei der Ausgabe
- Die Klage bleibt nicht bei der Behauptung stehen, urheberrechtlich geschütztes Material sei fürs Training genutzt worden, sondern betont, dass trainiertes Material während der Nutzung erneut ausgegeben werden könne
- Die Times behauptet, auf OpenAI basierende generative KI-Tools könnten Times-Inhalte wortwörtlich vorlesen, sehr eng zusammenfassen oder den Ausdrucksstil imitieren
- Die Klageunterlagen enthalten Beispiele, in denen GPT-4 große Teile von Times-Artikeln nahezu unverändert reproduziert haben soll
- Beispiel-Prompts gaben ChatGPT den Titel eines Times-Artikels, fragten nach dem ersten Absatz und forderten anschließend fortlaufend die nächsten Absätze an
- Als Ars Technica einige der gleichen Prompts testete, empfahl ChatGPT, die Times-Website oder andere vertrauenswürdige Quellen zu prüfen; Ars Technica schloss jedoch nicht aus, dass bei vorhandenem vorherigem Kontext urheberrechtlich geschütztes Material ausgegeben werden könnte
- Copilot ist der umbenannte Dienst von Bing Chat; Ars Technica stellte fest, dass Copilot auf Anfrage nach dem ersten Absatz eines bestimmten Times-Artikels etwa das erste Drittel des Artikels reproduzierte
Widerlegung von Fair Use und Reputationsschäden
- OpenAI und Microsoft haben öffentlich argumentiert, die nicht genehmigte Nutzung urheberrechtlich geschützter Inhalte für das Training generativer KI-Modelle diene einem neuen transformativen Zweck und falle daher unter Fair Use
- Die Times entgegnet, es sei nicht transformativ, Times-Inhalte ohne Bezahlung zu nutzen, um Produkte zu erstellen, die die Times ersetzen und ihr Leser entziehen
- Auch Halluzinationen der KI werden als Faktor angeführt, der den Reputationswert der Times schädigen könne
- Als Beispiel soll ein GPT-Modell erfunden haben, die Times habe am 10. Januar 2020 einen Artikel über einen Zusammenhang zwischen Orangensaft und Non-Hodgkin-Lymphom veröffentlicht; die Times behauptet jedoch, einen solchen Artikel nie publiziert zu haben
- Zu einem Times-Artikel über herzgesunde Lebensmittel habe Copilot eine Liste mit Beispielen genannt, die im Original nicht vorkamen; laut Klage waren 80 % der angeforderten Liste Lebensmittel, die im ursprünglichen Artikel nicht erwähnt wurden
- Im Fall von Wirecutter-Empfehlungen sollen Produkte, die von den Mitarbeitern nicht getestet wurden, fälschlich als Wirecutter-Empfehlungen zugeschrieben worden sein
Wirecutter und das Problem der Affiliate-Einnahmen
- Wirecutter ist ein Medium im Besitz der The New York Times
- Die Klage behauptet, Copilot könne auch große Teile von Wirecutter-Artikeln ausgeben
- In diesen Artikelauszügen seien Affiliate-Links entfernt, wodurch eine wichtige Einnahmequelle von Wirecutter blockiert werde
Rechtliche Ansprüche
- Die Klage macht die mit OpenAI verbundenen Unternehmen für die Softwareentwicklung verantwortlich und Microsoft zusätzlich für die Bereitstellung OpenAI-basierter Dienste sowie den Aufbau der Trainingsinfrastruktur
- Zu den Anspruchsgrundlagen gehören direkte Copyright-Verletzung, mitwirkende Verletzung und stellvertretende Verletzung
- Zusätzlich werden Verstöße gegen den DMCA, Markenrechtsverletzungen sowie Veruntreuung durch unlauteren Wettbewerb geltend gemacht
1 Kommentare
Meinungen auf Hacker News
Wenn man den LLM-Aspekt weglässt und mit legal gescrapten NYT-Artikeln ein Produkt baut, frage ich mich, ob das Fair Use ist.
Nehmen wir zum Beispiel an, man hostet die Artikel, bietet einen Index an und verkauft gegen Bezahlung eine Umschreibfunktion, etwa Zusammenfassungen von Artikeln über die Beziehungen zwischen den USA und Großbritannien der letzten fünf Jahre. Selbst wenn man der NYT nur die monatliche Abo-Gebühr zahlt, keine langen Passagen des Originals wortwörtlich ausgibt und nur kurze Zitate verwendet, klingt das nicht nach Fair Use.
Normalerweise kann man kein Produkt mit persönlichem Tarif nehmen und dessen Derivate gegen Geld an Dritte verkaufen. Bei VS Code ist das ähnlich.
Es gibt einen großen Unterschied zu Suchmaschinen. Suchmaschinen ersetzen die Quelle nicht, sondern leiten im Gegenteil zum Original weiter und geben so die Chance, für den Artikel zu bezahlen. Ein solches Produkt oder ein LLM nutzt NYT-Inhalte dagegen als Ersatz, sodass man ein NYT-Abo faktisch nicht braucht.
Außerdem sieht man bei Nachrichtenartikeln von Medien der zweiten Reihe und darunter, dass sie fast alle direkt Inhalte von Stellen wie der NYT übernehmen. Meist schreiben sie: „Laut The Times hat Person X dies und das getan“, und setzen in der Regel auch einen Link zum Original.
Manchmal ist es so stark überangepasst, dass es nicht einmal mehr verlustbehaftete Kompression ist, sondern die Daten wortwörtlich im neuronalen Netz codiert sind.
Wenn man darüber nachdenkt, ist es erstaunlich, dass Google legal ist, aber was Google tut, ist eindeutig als legal etabliert. Intern speichert und verwendet Google vollständige Originalkopien aller indexierten Webseiten.
Natürlich liefert Google Links zur Quelle. Wenn OpenAI das auch täte, würde man es dann als legal ansehen, selbst wenn die Klickrate nur 0,1 % beträgt und es den Einnahmen der NYTimes kaum hilft? Was, wenn man den Moment erkennt, in dem wortwörtliche Ausgabe des Originals droht, und es einfach paraphrasieren lässt? Die NYTimes besitzt kein Copyright an Paraphrasen ihrer Artikel. Es wäre ziemlich absurd, wenn der Staat solche Umgehungsmaßnahmen erzwingen würde, obwohl es praktisch keinen Unterschied macht.
Aus dem Fenster zu schauen und zu sehen, wie der Nachbar in den Laden geht, ist in Ordnung. Aber wenn man mit Kameras jede Person auf der Straße verfolgt und in eine Datenbank einträgt, wird das vielerorts problematisch und illegal.
Wenn etwas skaliert, lässt sich die Logik nicht zwingend unverändert anwenden.
In der Klage finden sich Beispiele, in denen ChatGPT/Bing Copilot die NYT wortwörtlich kopiert hat. Es dürfte schwer sein zu behaupten, dass solche Kopien Fair Use sind.
Allerdings könnten OAI/MS das auch innerhalb des aktuellen Paradigmas beheben. Man müsste das Modell per RLHF darauf trainieren, Plagiate zu erkennen und zu bestrafen.
Die Klage geht aber weit über die bloße Behauptung hinaus, dass solche Kopien eine Urheberrechtsverletzung seien. Sie argumentiert, dass „die unautorisierte Vervielfältigung von Werken der Times zum Training von LLMs eine ersetzende Nutzung ist, die nicht durch einen transformativen Zweck gerechtfertigt wird“.
Das ist die starke Behauptung, dass schon das Herunterladen der Artikel als Trainingsdaten eine Urheberrechtsverletzung ist. Dass GPT Originaltext ausgibt, könnte ein Ablenkungsmanöver sein. Ich hoffe, die Richter erkennen das und konzentrieren sich auf die interessante, rechtlich ungeklärte Frage mit großen Interessen dahinter, was an einem Modell transformative Nutzung sein kann und was nicht.
Der erwartete Ansatz wäre, einen n-Gramm-Bloom-Filter bekannter urheberrechtlich geschützter Inhalte zu pflegen. Zum Beispiel würde man alle Folgen von 7 aufeinanderfolgenden Wörtern in einem Artikel aufzählen und prüfen und das Modell nur maximal n-1 Wörter ausgeben lassen, die exakt mit der Quelle übereinstimmen.
Das wird aber nach hinten losgehen. KI-Firmen werden viel stärker in Content Attribution investieren, und die neuen Attribution-Tools werden auch auf alle von Menschen geschriebenen Artikel angewandt werden, weil jeder heimlich GPT verwenden kann. Das könnte eine abschreckende Wirkung auf Kreativität haben. Außerdem ist nicht alles, was die NYT schreibt, originell, also müsste auch die NYT gegen alle anderen Quellen abgeglichen werden.
Man kann ein LLM durchaus als komprimiertes Datenarchiv mit einem seltsamen Algorithmus betrachten. Dass es regelmäßig Trainingsdaten wortwörtlich ausspucken kann und dass es Schutzmechanismen gibt, die das verhindern sollen, ist ein Beleg dafür.
Der zweite Beleg ist das hier beschriebene Paper: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... Die Forscher haben statt eines LLM gzip-komprimierte Daten als Modell verwendet und damit sogar ein trainiertes LLM geschlagen.
KI ist bis zu einem gewissen Grad eine Black Box, aber der Betrieb einer Black Box schützt nicht vor Klagen wegen Rechtsverletzungen. Man kann nicht eine Datenbank aus abgegriffenen urheberrechtlich geschützten Daten bauen und dann patentieren lassen, dass Abfragen dieser Daten Fair Use seien.
Hier braucht es ein Gesetz, und dieses Gesetz wird nicht lauten: „Wenn es fürs Modelltraining ist, darf jeder alles kostenlos kopieren.“ Lizenzen müssen geklärt werden, und es braucht nicht nur Präzedenzfälle, sondern echtes Recht. Ich habe durchaus Sympathie dafür, Open-Source-Forschern und Hackern großen Spielraum zu geben, aber bei Microsoft und dem von Microsoft unterstützten OpenAI habe ich nicht im gleichen Maße Sympathie.
Wenn es funktioniert, wäre es ziemlich komisch. Man trainiert es erst darauf, Trainingsdaten wortwörtlich zu kopieren, und trainiert es dann erneut darauf, das nicht zu tun.
Ist das nicht ohnehin die ursprüngliche Funktionsweise? Weil die Loss Function so ist, wird es darauf trainiert, Trainingsdaten wortwörtlich zu kopieren. Man erwartet nur wegen der riesigen Datenmenge und angesichts der Parameterzahl nicht, dass das für die meisten Trainingsdaten möglich ist.
Angenommen, ich verkaufe eine Abo-Seite namens New Jersey Times und lade einfach Artikel der New York Times herunter, die ich durch einen Autoencoder mit etwas zufälligem Rauschen schicke. Der Zweck ist exakt derselbe wie bei der Website der New York Times, nur dass ich das Geld verdiene. Ist das Fair Use?
Die NYT baut eine Sandburg vor einem Tsunami. Im großen Ganzen wird diese Klage aus mehreren Gründen keine Rolle spielen
Erstens wird die nächste Generation von LLMs nur mit „synthetischen“/öffentlichen Daten trainiert werden. GPT-4V kann ein gesamtes urheberrechtlich geschütztes Trainingskorpus so leicht waschen, dass es nicht mehr wiederzuerkennen ist. Zum Beispiel indem man 40 % umschreibt und Autor sowie Quelle entfernt. Dann gibt es kein urheberrechtlich geschütztes Material mehr, das GPT-5 ausspucken könnte
Zweitens gehen Forschung, Hosting und Fortschritt weiter. Die USA können das nicht aufhalten, sie können sich nur dafür entscheiden, zurückzufallen. Die Welt macht weiter, und China wird amüsiert zusehen, wie sein größter Konkurrent intellektuellen Selbstmord begeht, um rent-seeking Medienunternehmen zu besänftigen
Drittens können Modelle Gewichte teilen, miteinander gemergt werden, zusammenarbeiten, entfernt werden und sich über mehrere Release-Generationen hinweg weiterentwickeln. Das Urheberrecht ist hoffnungslos ungeeignet, in dieser Suppe von KI-Abstammungslinien, die mit Daten unklarer oder zweifelhafter Herkunft erhitzt wurde, Verletzer aufzuspüren
Ob es uns gefällt oder nicht: Wir leben in einem neuen intellektuellen Zeitalter. Die NYT und andere werden auf dieser Welle mitsurfen, ob sie wollen oder nicht
Betrachtet man die Fair-Use-Faktoren, könnte beim Zweck und Charakter der Nutzung künftig vielleicht ein Transformationsargument greifen, aber der aktuelle Streit dreht sich darum, dass der Originaltext unverändert verwendet wurde. Daher ist es eindeutig nicht transformativ. Die kommerzielle Nutzung macht eine Fair-Use-Beurteilung ebenfalls schwieriger
Bei der Art des geschützten Werks haben eher faktische Werke Chancen, als Fair Use anerkannt zu werden, aber NYT-Artikel sind meiner Ansicht nach sowohl faktisch als auch schöpferisch
Beim Umfang und der Wesentlichkeit der Nutzung wurden ganze Artikel verwendet, daher gibt es keinen Spielraum zu behaupten, es sei nur ein unwesentlicher kleiner Teil genutzt worden
Auch bei den Auswirkungen auf den Marktwert bekommt die NYT kein Geld, und wenn Leute NYT-Artikel nicht lesen, sondern sie in ChatGPT nachschlagen, kann das dem Marktwert kaum helfen
Ich bin kein Jurist, aber ich denke, die NYT hat jedes Recht, Klage einzureichen. Fortschritt ist unvermeidlich, aber Menschen müssen ihn aktiv gestalten und lenken. Sonst kann man ihn nicht Fortschritt nennen. Rechtliche Schritte sind hier ein notwendiges Mittel, damit Einzelpersonen und Organisationen ihre Rechte geltend machen und die Richtung beeinflussen können
In mindestens einem Fall musste ein chinesisches Startup seinen neu gestarteten Chatbot schließen, weil er zum Ukrainekrieg Dinge sagte, die nicht zur offiziellen Parteilinie passten
https://finance.yahoo.com/news/beijing-tries-regulate-china-...
https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
Ich stimme zu, dass Forschung, Hosting und Fortschritt weitergehen, aber ich bin mir nicht sicher, ob China der Nutznießer ist, nur weil die USA dieser Achterbahnfahrt ein paar Sicherheitsvorkehrungen hinzufügen
Man muss dem nicht zustimmen, und man muss es nicht mögen. Aber wenn man es akzeptiert und danach lebt, verbrennt man sich deutlich seltener
Die Klageschrift selbst ist dieses von arstechnica verlinkte Dokument: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
Ab Seite 30 gibt es ziemlich klare Beispiele dafür, dass ChatGPT interne Kopien urheberrechtlich geschützter Materialien hat und sie wortgetreu rezitiert
Im Kern wurde massenhaft urheberrechtlich geschütztes Material in irgendeinen Blob kopiert und anschließend verlustbehaftet komprimiert. Wie verlustbehaftet muss diese Kompression sein, damit das Urheberrecht nicht mehr greift? Vermutlich ziemlich stark
Was OpenAI retten könnte, ist ausgerechnet die Geschlossenheit. OpenAI kann durch einfaches Matching gegen die urheberrechtlich geschützten Teile des Datensatzes, mit dem ChatGPT trainiert wurde, im Webinterface filtern und blockieren, dass urheberrechtlich geschütztes Material aus dem LLM herausgelangt. Ein Open-Source-Projekt, das mit demselben Datensatz trainiert wurde, hätte dagegen die deutlich schwierigere Aufgabe, urheberrechtlich geschütztes Material aus dem LLM selbst zu entfernen
Also so, dass es nicht leicht entdeckt wird oder dass selbst bei direkter Analyse genug plausible Abstreitbarkeit bleibt, um davonzukommen
Schwer zu sagen, ob es aus den Trainingsdaten wiederholt wird oder ob derselbe Fehler gemacht wurde wie im Originalartikel: Copilot wurde genutzt, um zuerst den Artikel zu suchen/per Bing zu finden und dann darauf zu antworten
Wenn man die Beispiele in der Klage für „Fair Use“ hält, sollte man darüber nachdenken, was das bedeutet. Im Grunde würde man einigen Unternehmen mit fast keinen Regeln erlauben, den gesamten Wert des Internets in ihre Blackbox zu integrieren; das wirkt sehr gefährlich
Selbst wenn es nicht dieser Fall ist: Ich hoffe, dass das Gericht hier die Spielregeln festlegt
Bis jemand synthetische Daten löst, werden in diesem Bereich nur noch Player wie OpenAI und Google übrig bleiben
Die Kontroverse um Verletzungen geistigen Eigentums durch LLMs bringt diese inhärenten Mängel sofort ans Licht und erzwingt am Ende Entscheidungen, die Präzedenzfälle für die Legalität menschlichen Denkens schaffen. Damit wird sich niemand wohlfühlen
Ich verstehe, dass es gefährlich sein kann, OpenAI und Microsoft zu viel Ermessensspielraum zu geben, aber dabei übersieht man, dass Unternehmen wie Disney das Urheberrecht seit Jahrzehnten faktisch zu großen Teilen mitbestimmen. Sie dürften sich die Finger danach lecken, dass ein Präzedenzfall entsteht, nach dem man schon dafür zahlen muss, mit einem Medium oder einer Information auf irgendeiner Ebene zu interagieren
Letztlich merken wir gerade, dass wir ein riesiges Wirtschaftssystem auf der grundlegend fehlerhaften Idee des Eigentums an Ideen aufgebaut haben. Die Lösung wäre, das Regelwerk zu zerreißen, was sehr schmerzhaft wäre, oder noch stärker darauf zu setzen, was tödlich wäre
In Japan hieß es, bei KI sei alles möglich
Man sollte besser keinen Wettbewerbsvorteil dadurch verlieren, dass man etwas öffentlich ins Internet stellt. Wenn man es für alle sichtbar veröffentlicht, muss man damit rechnen, dass andere es verwenden
Entwickler tun gern so, als wären LLMs menschenähnlich und hätten Materialien wie die NYTimes wie Menschen als Lernmaterial genutzt
Das stimmt aber nicht. Einfacher betrachtet wurde proprietärer Text nun in den Quellcode von OpenAI integriert. Es ist so, als würde ich Teile eines anderen proprietären Codes kopieren und in meine Codebasis einfügen und dann behaupten, Copy-and-paste sei ein natürlicher Evolutionsprozess über Millionen Jahre hinweg
Dass ein LLM zu komplex ist, um zu wissen, wo das steckt, macht es nicht weniger dazu
Der Quellcode eines LLM besteht wahrscheinlich aus ein paar Hundert Zeilen Text, die die Form des im Modell enthaltenen neuronalen Netzes beschreiben
Inhalte der NYTimes werden nicht im Quellcode stecken. Die NYTimes veröffentlicht keinen Python-Quellcode, sondern Nachrichten in menschlicher Sprache
LLMs sind konzeptionell einfach und bestehen größtenteils aus Matrixmultiplikationen, nichtlinearen Operationen, die die einzelnen Schichten verbinden, sowie Attention-basierten Schleifen. Komplex wird es durch die enorme Menge an Trainingsdaten und Rechenaufwand
Alle Unternehmen mit Content wittern Geld
Die NYT hätte wohl nichts dagegen, ihre Inhalte für das Training von LLMs zu verwenden. Solange sie dafür Gebühren bekommt. Reddit wird seine kostenlose API schließen und Geld verlangen, wenn man Trainingsinhalte haben will. Discord wird Inhalte für KI-Training verkaufen, falls es das nicht schon tut. Twitter macht es auch
Früher waren LLMs nur ein Experiment, also war es ihnen egal. Jetzt stehen Billionen Dollar an Wert auf dem Spiel
Die Sichtweise der NYT wird wirklich töricht wirken, wenn man LLMs künftig in mechanische Körper steckt, die mit der physischen Welt interagieren und in Echtzeit lernen und Gewichte aktualisieren können
Für solche Roboter könnte es dann komplett illegal sein, urheberrechtlich geschütztes Material zu lesen, zu sehen oder zu hören. Sie könnten nicht fernsehen, keine Bücher aus der Bibliothek lesen und nicht im Internet surfen. Denn dabei könnten sie Teile urheberrechtlich geschützter Inhalte auswendig lernen
Für Menschen wäre es schwieriger, aber wenn jemand ein urheberrechtlich geschütztes Buch auswendig lernt und es dann live im Fernsehen vorliest oder aus dem Gedächtnis eine Kopie erstellt und verkauft, wird er verklagt
Menschen erstellen ständig abgeleitete Werke, und dass LLMs das tun, ist in Ordnung. Aber wortwörtlich dürfen sie es nicht
Es gibt Menschen mit fotografischem Gedächtnis; wenn Leute statt eine Zeitung zu kaufen diese Person bitten würden, ihnen die Nachrichten auswendig aufzusagen, entstünde dasselbe Problem
Die derzeitige öffentliche Aufführung urheberrechtlich geschützter Materialien ist eine Verletzung
Oder gehören sie alle einem einzigen Großkonzern und werden genutzt, um, wie es der Kapitalismus tut, aus uns allen Geld herauszupressen? Dann bin ich für ein Verbot
Seit ChatGPT erschienen ist, wird argumentiert, dass LLMs als transformative Werke unter Fair Use fallen sollten. Ich bin kein Jurist, nur eine Laienmeinung, aber es wird interessant sein zu sehen, was das Rechtssystem dazu sagt.
Wenn man Bruchstücke aus Dutzenden, Hunderten oder Tausenden von Quellen entlehnt, wessen Urheberrecht wird dann verletzt? Auch Musik-Remixe entlehnen aus mehreren Quellen, und wenn die Musik klar anders und originell ist, scheinen sie rechtlicher Prüfung bis zu einem gewissen Grad standzuhalten.
Die pauschale Behauptung, LLMs oder heutige KI fielen unter Fair Use, wird jedoch schwerer zu verteidigen, wenn ein Modell wiederholt vollständige und identifizierbare Einzelwerke reproduziert und in konkreten Fällen offensichtlich gegen das Urheberrecht verstößt. In den meisten Fällen mag das Modell remixen oder transformativ sein, aber es gibt Hinweise darauf, dass es das nicht jedes Mal und immer tut. Vielleicht wird die Klage ein Anlass, KI so zu verbessern, dass sie bestimmte Werke nicht reproduziert, wodurch das Fair-Use-Argument solider und tatsächlich verteidigbar würde.
Diese Situation wurde in dem sehr einflussreichen Video EPIC 2014 aus dem Jahr 2004 vorhergesehen.
https://www.youtube.com/watch?v=eUHBPuHS-7s Das Original war Flash und ist im Gedächtnisloch verschwunden; übrig ist nur diese minderwertige Konvertierung.
36 Sekunden: „Doch die Presse, wie Sie sie kannten, existiert nicht mehr“
40 Sekunden: „Die Nachrichtenorganisationen des 20. Jahrhunderts sind zu Randfiguren geworden. Ein einsames Überbleibsel einer nicht allzu fernen Vergangenheit“
2 Minuten 11 Sekunden: „2002 startet Google außerdem Google News, ein Nachrichtenportal. Die Nachrichtenorganisationen wehren sich. Google News wird vollständig von Computern redigiert“
5 Minuten 13 Sekunden: „Die Nachrichtenkriege von 2010 sind bemerkenswert, weil keine einzige echte Nachrichtenorganisation daran beteiligt ist. Googlezon setzt Microsoft schließlich mit Funktionen schachmatt, mit denen der Softwaregigant nicht mithalten kann. Mithilfe eines neuen Algorithmus ziehen Googlezons Computer dynamisch Sätze und Fakten aus allen Inhaltsquellen heraus und kombinieren sie neu, um neue Artikel zu erstellen. Die Computer schreiben für jeden Nutzer einen neuen Artikel“
5 Minuten 55 Sekunden: „2011 erwacht die schlafende vierte Gewalt und leistet ihren ersten und letzten Widerstand. Die New York Times Company verklagt Googlezon mit der Begründung, dass die Faktenextraktions-Roboter des Unternehmens gegen das Urheberrecht verstoßen. Der Fall geht bis vor den Supreme Court“
Die Details haben nicht genau gestimmt, aber die allgemeine Trefferquote ist erstaunlich. Allerdings könnte es in dieser Timeline auch eine Art Produkt von Hyperstition sein.
https://en.wikipedia.org/wiki/EPIC_2014 Ich dachte, EPIC 2014 sei vielleicht das einzige Flash-Video mit einem Wikipedia-Artikel, aber bei der Suche stellte sich heraus, dass es noch fünf weitere gibt.