Copyright-Klage der NY Times fordert Löschung aller GPT-Instanzen von OpenAI

(arstechnica.com)

1 Punkte von GN⁺ 2023-12-29 | 1 Kommentare | Auf WhatsApp teilen

Die New York Times hat gegen OpenAI-Tochtergesellschaften und Microsoft eine Copyright-Klage eingereicht, weil diese ihre Inhalte ohne Genehmigung für Training und Ausgaben genutzt hätten; gefordert wird sogar die Löschung von GPT-Instanzen und Trainingsdatensätzen
Kernfrage ist nicht nur das Modelltraining selbst, sondern auch, ob GPT-basierte Tools Inhalte kostenpflichtiger Times-Artikel nahezu wortgleich wiedergeben und damit die Paywall umgehen können
Die Times behauptet, Common Crawl enthalte 16 Millionen eindeutige Datensätze ihrer Website und sie sei in den öffentlich bekannten Trainingsdaten vor GPT-3.5 die am dritthäufigsten referenzierte Quelle gewesen
In Tests von Ars Technica schien diese Umgehung bei ChatGPT blockiert zu sein, Copilot gab jedoch auf Anfrage nach dem ersten Absatz eines bestimmten Times-Artikels einen erheblichen Teil des Artikelanfangs wieder
Die Klage umfasst Ansprüche wegen Copyright-Verletzung, DMCA, Markenrecht und unlauterem Wettbewerb und fordert eine dauerhafte Unterlassungsverfügung, Schadenersatz, Rückgabe und Abschöpfung ungerechtfertigter Gewinne

Beklagte und zentrale Forderungen

Die New York Times hat gegen mehrere mit OpenAI verbundene Unternehmen und Microsoft Klage wegen Copyright-Verletzung eingereicht
Microsoft wurde als Partner von OpenAI in die Klage einbezogen, weil das Unternehmen den Copilot-Dienst mit OpenAI-Technologie betreibt und an der Bereitstellung der Infrastruktur für das Training großer GPT-Sprachmodelle beteiligt gewesen sein soll
Zu den Forderungen gehören die Löschung aller mit Times-Material trainierten GPT-Instanzen sowie die Vernichtung der für das Training verwendeten Datensätze
Außerdem wird eine dauerhafte Unterlassungsverfügung gefordert, um ähnliche Handlungen künftig zu verhindern
Die finanziellen Rechtsbehelfe umfassen gesetzlichen Schadenersatz, kompensatorischen Schadenersatz, Rückgabe, Abschöpfung ungerechtfertigter Gewinne sowie weitere nach Gesetz oder Billigkeitsrecht verfügbare Rechtsbehelfe

Die Schadensstruktur aus Sicht der Times

Die Times argumentiert, sie unterhalte viele Journalisten und Rechercheteams, berichte über zahlreiche Themen und führe investigative Recherchen durch; dadurch gelte sie in vielen Fragen als maßgebliche Quelle
Um die Kosten dieser Berichterstattung zu refinanzieren, beschränkt die Times den Zugriff auf Artikel durch eine starke Paywall
Über Copyright-Hinweise in der Printausgabe, Nutzungsbedingungen mit Einschränkungen für Vervielfältigung und Nutzung sowie eine selektive Lizenzierungspolitik kontrolliert sie die Nutzung ihrer Werke
Der zentrale Schadensgedanke der Klage lautet: Wenn OpenAI-Tools Times-Inhalte ohne Erlaubnis bereitstellen, werde die Beziehung zu den Lesern beschädigt und Einnahmen aus Abonnements, Lizenzen, Werbung und Partnerschaften würden entzogen

Streitpunkte zur Nutzung von Trainingsdaten

Die Times behauptet, ihre Inhalte seien beim Training mehrerer GPT-Versionen ohne Genehmigung verwendet worden
Vor GPT-3.5 waren Informationen zu Trainingsdatensätzen öffentlich; einer davon, Common Crawl, soll 16 Millionen eindeutige Datensätze von der Times-Website enthalten haben
Nach diesem Maßstab war die Times nach Wikipedia und der US-Patentdatenbank die am dritthäufigsten referenzierte Quelle
OpenAI veröffentlicht zu neueren GPT-Versionen kaum noch Details zu Trainingsdaten, doch die Klage führt Indizien an, dass vollständige Times-Artikel weiterhin in den Trainingsprozess einbezogen wurden
Im weiteren Verfahren könnten Informationen über den Zugriff auf Trainingsdaten zu einem wichtigen Thema der Discovery werden

Das Reproduktionsproblem bei der Ausgabe

Die Klage bleibt nicht bei der Behauptung stehen, urheberrechtlich geschütztes Material sei fürs Training genutzt worden, sondern betont, dass trainiertes Material während der Nutzung erneut ausgegeben werden könne
Die Times behauptet, auf OpenAI basierende generative KI-Tools könnten Times-Inhalte wortwörtlich vorlesen, sehr eng zusammenfassen oder den Ausdrucksstil imitieren
Die Klageunterlagen enthalten Beispiele, in denen GPT-4 große Teile von Times-Artikeln nahezu unverändert reproduziert haben soll
Beispiel-Prompts gaben ChatGPT den Titel eines Times-Artikels, fragten nach dem ersten Absatz und forderten anschließend fortlaufend die nächsten Absätze an
Als Ars Technica einige der gleichen Prompts testete, empfahl ChatGPT, die Times-Website oder andere vertrauenswürdige Quellen zu prüfen; Ars Technica schloss jedoch nicht aus, dass bei vorhandenem vorherigem Kontext urheberrechtlich geschütztes Material ausgegeben werden könnte
Copilot ist der umbenannte Dienst von Bing Chat; Ars Technica stellte fest, dass Copilot auf Anfrage nach dem ersten Absatz eines bestimmten Times-Artikels etwa das erste Drittel des Artikels reproduzierte

Widerlegung von Fair Use und Reputationsschäden

OpenAI und Microsoft haben öffentlich argumentiert, die nicht genehmigte Nutzung urheberrechtlich geschützter Inhalte für das Training generativer KI-Modelle diene einem neuen transformativen Zweck und falle daher unter Fair Use
Die Times entgegnet, es sei nicht transformativ, Times-Inhalte ohne Bezahlung zu nutzen, um Produkte zu erstellen, die die Times ersetzen und ihr Leser entziehen
Auch Halluzinationen der KI werden als Faktor angeführt, der den Reputationswert der Times schädigen könne
Als Beispiel soll ein GPT-Modell erfunden haben, die Times habe am 10. Januar 2020 einen Artikel über einen Zusammenhang zwischen Orangensaft und Non-Hodgkin-Lymphom veröffentlicht; die Times behauptet jedoch, einen solchen Artikel nie publiziert zu haben
Zu einem Times-Artikel über herzgesunde Lebensmittel habe Copilot eine Liste mit Beispielen genannt, die im Original nicht vorkamen; laut Klage waren 80 % der angeforderten Liste Lebensmittel, die im ursprünglichen Artikel nicht erwähnt wurden
Im Fall von Wirecutter-Empfehlungen sollen Produkte, die von den Mitarbeitern nicht getestet wurden, fälschlich als Wirecutter-Empfehlungen zugeschrieben worden sein

Wirecutter und das Problem der Affiliate-Einnahmen

Wirecutter ist ein Medium im Besitz der The New York Times
Die Klage behauptet, Copilot könne auch große Teile von Wirecutter-Artikeln ausgeben
In diesen Artikelauszügen seien Affiliate-Links entfernt, wodurch eine wichtige Einnahmequelle von Wirecutter blockiert werde

Rechtliche Ansprüche

Die Klage macht die mit OpenAI verbundenen Unternehmen für die Softwareentwicklung verantwortlich und Microsoft zusätzlich für die Bereitstellung OpenAI-basierter Dienste sowie den Aufbau der Trainingsinfrastruktur
Zu den Anspruchsgrundlagen gehören direkte Copyright-Verletzung, mitwirkende Verletzung und stellvertretende Verletzung
Zusätzlich werden Verstöße gegen den DMCA, Markenrechtsverletzungen sowie Veruntreuung durch unlauteren Wettbewerb geltend gemacht

1 Kommentare

GN⁺ 2023-12-29

Meinungen auf Hacker News

Wenn man den LLM-Aspekt weglässt und mit legal gescrapten NYT-Artikeln ein Produkt baut, frage ich mich, ob das Fair Use ist.
Nehmen wir zum Beispiel an, man hostet die Artikel, bietet einen Index an und verkauft gegen Bezahlung eine Umschreibfunktion, etwa Zusammenfassungen von Artikeln über die Beziehungen zwischen den USA und Großbritannien der letzten fünf Jahre. Selbst wenn man der NYT nur die monatliche Abo-Gebühr zahlt, keine langen Passagen des Originals wortwörtlich ausgibt und nur kurze Zitate verwendet, klingt das nicht nach Fair Use.
Normalerweise kann man kein Produkt mit persönlichem Tarif nehmen und dessen Derivate gegen Geld an Dritte verkaufen. Bei VS Code ist das ähnlich.
Es gibt einen großen Unterschied zu Suchmaschinen. Suchmaschinen ersetzen die Quelle nicht, sondern leiten im Gegenteil zum Original weiter und geben so die Chance, für den Artikel zu bezahlen. Ein solches Produkt oder ein LLM nutzt NYT-Inhalte dagegen als Ersatz, sodass man ein NYT-Abo faktisch nicht braucht.
- Was beschrieben wurde, fällt tatsächlich vollständig unter Fair Use.
  Außerdem sieht man bei Nachrichtenartikeln von Medien der zweiten Reihe und darunter, dass sie fast alle direkt Inhalte von Stellen wie der NYT übernehmen. Meist schreiben sie: „Laut The Times hat Person X dies und das getan“, und setzen in der Regel auch einen Link zum Original.
- Ein weiterer zu berücksichtigender Faktor ist, dass ein neuronales Netz wie verlustbehaftete Kompression funktionieren kann; bei überangepassten Modellen wird das sehr deutlich.
  Manchmal ist es so stark überangepasst, dass es nicht einmal mehr verlustbehaftete Kompression ist, sondern die Daten wortwörtlich im neuronalen Netz codiert sind.
- „Es spuckt keine großen Blöcke der originalen NYT-Artikel wortwörtlich aus, sondern verwendet nur sehr kurze Auszüge“ beschreibt im Grunde Google.
  Wenn man darüber nachdenkt, ist es erstaunlich, dass Google legal ist, aber was Google tut, ist eindeutig als legal etabliert. Intern speichert und verwendet Google vollständige Originalkopien aller indexierten Webseiten.
  Natürlich liefert Google Links zur Quelle. Wenn OpenAI das auch täte, würde man es dann als legal ansehen, selbst wenn die Klickrate nur 0,1 % beträgt und es den Einnahmen der NYTimes kaum hilft? Was, wenn man den Moment erkennt, in dem wortwörtliche Ausgabe des Originals droht, und es einfach paraphrasieren lässt? Die NYTimes besitzt kein Copyright an Paraphrasen ihrer Artikel. Es wäre ziemlich absurd, wenn der Staat solche Umgehungsmaßnahmen erzwingen würde, obwohl es praktisch keinen Unterschied macht.
- Ist es nicht völlig üblich, Artikel oder Blogposts zu schreiben, die Nachrichtenartikel im Grunde zusammenfassen und gelegentlich zitieren?
- Die Frage „Ist es Fair Use, wenn man mit legal gescrapten NYT-Artikeln ein Produkt baut?“ ist keine gute Frage.
  Aus dem Fenster zu schauen und zu sehen, wie der Nachbar in den Laden geht, ist in Ordnung. Aber wenn man mit Kameras jede Person auf der Straße verfolgt und in eine Datenbank einträgt, wird das vielerorts problematisch und illegal.
  Wenn etwas skaliert, lässt sich die Logik nicht zwingend unverändert anwenden.
In der Klage finden sich Beispiele, in denen ChatGPT/Bing Copilot die NYT wortwörtlich kopiert hat. Es dürfte schwer sein zu behaupten, dass solche Kopien Fair Use sind.
Allerdings könnten OAI/MS das auch innerhalb des aktuellen Paradigmas beheben. Man müsste das Modell per RLHF darauf trainieren, Plagiate zu erkennen und zu bestrafen.
Die Klage geht aber weit über die bloße Behauptung hinaus, dass solche Kopien eine Urheberrechtsverletzung seien. Sie argumentiert, dass „die unautorisierte Vervielfältigung von Werken der Times zum Training von LLMs eine ersetzende Nutzung ist, die nicht durch einen transformativen Zweck gerechtfertigt wird“.
Das ist die starke Behauptung, dass schon das Herunterladen der Artikel als Trainingsdaten eine Urheberrechtsverletzung ist. Dass GPT Originaltext ausgibt, könnte ein Ablenkungsmanöver sein. Ich hoffe, die Richter erkennen das und konzentrieren sich auf die interessante, rechtlich ungeklärte Frage mit großen Interessen dahinter, was an einem Modell transformative Nutzung sein kann und was nicht.
- „Per RLHF Plagiate erkennen und bestrafen“ ist kein RLHF-Problem.
  Der erwartete Ansatz wäre, einen n-Gramm-Bloom-Filter bekannter urheberrechtlich geschützter Inhalte zu pflegen. Zum Beispiel würde man alle Folgen von 7 aufeinanderfolgenden Wörtern in einem Artikel aufzählen und prüfen und das Modell nur maximal n-1 Wörter ausgeben lassen, die exakt mit der Quelle übereinstimmen.
  Das wird aber nach hinten losgehen. KI-Firmen werden viel stärker in Content Attribution investieren, und die neuen Attribution-Tools werden auch auf alle von Menschen geschriebenen Artikel angewandt werden, weil jeder heimlich GPT verwenden kann. Das könnte eine abschreckende Wirkung auf Kreativität haben. Außerdem ist nicht alles, was die NYT schreibt, originell, also müsste auch die NYT gegen alle anderen Quellen abgeglichen werden.
- Ich glaube, die NYT wird gewinnen.
  Man kann ein LLM durchaus als komprimiertes Datenarchiv mit einem seltsamen Algorithmus betrachten. Dass es regelmäßig Trainingsdaten wortwörtlich ausspucken kann und dass es Schutzmechanismen gibt, die das verhindern sollen, ist ein Beleg dafür.
  Der zweite Beleg ist das hier beschriebene Paper: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... Die Forscher haben statt eines LLM gzip-komprimierte Daten als Modell verwendet und damit sogar ein trainiertes LLM geschlagen.
  KI ist bis zu einem gewissen Grad eine Black Box, aber der Betrieb einer Black Box schützt nicht vor Klagen wegen Rechtsverletzungen. Man kann nicht eine Datenbank aus abgegriffenen urheberrechtlich geschützten Daten bauen und dann patentieren lassen, dass Abfragen dieser Daten Fair Use seien.
  Hier braucht es ein Gesetz, und dieses Gesetz wird nicht lauten: „Wenn es fürs Modelltraining ist, darf jeder alles kostenlos kopieren.“ Lizenzen müssen geklärt werden, und es braucht nicht nur Präzedenzfälle, sondern echtes Recht. Ich habe durchaus Sympathie dafür, Open-Source-Forschern und Hackern großen Spielraum zu geben, aber bei Microsoft und dem von Microsoft unterstützten OpenAI habe ich nicht im gleichen Maße Sympathie.
- Viele Fälle von Fair Use umfassen wortwörtliches Kopieren. Die wichtige Frage ist weniger das Kopieren an sich als die Situation, in der es geschieht. Die NYT betritt hier noch unerschlossenes Terrain.
- Ich weiß nicht, wie der Vorschlag „per RLHF Plagiate erkennen und bestrafen“ in der Praxis funktionieren soll. Um Plagiate während der Inferenz zu erkennen, müsste man eher noch stärker auswendig lernen.
  Wenn es funktioniert, wäre es ziemlich komisch. Man trainiert es erst darauf, Trainingsdaten wortwörtlich zu kopieren, und trainiert es dann erneut darauf, das nicht zu tun.
  Ist das nicht ohnehin die ursprüngliche Funktionsweise? Weil die Loss Function so ist, wird es darauf trainiert, Trainingsdaten wortwörtlich zu kopieren. Man erwartet nur wegen der riesigen Datenmenge und angesichts der Parameterzahl nicht, dass das für die meisten Trainingsdaten möglich ist.
- Wenn man ein geschütztes Werk kopiert und es für genau denselben Ausdruckszweck wie ursprünglich nutzt, ist das doch kein Fair Use, oder? Es muss für einen transformativen Zweck genutzt werden.
  Angenommen, ich verkaufe eine Abo-Seite namens New Jersey Times und lade einfach Artikel der New York Times herunter, die ich durch einen Autoencoder mit etwas zufälligem Rauschen schicke. Der Zweck ist exakt derselbe wie bei der Website der New York Times, nur dass ich das Geld verdiene. Ist das Fair Use?
Die NYT baut eine Sandburg vor einem Tsunami. Im großen Ganzen wird diese Klage aus mehreren Gründen keine Rolle spielen
Erstens wird die nächste Generation von LLMs nur mit „synthetischen“/öffentlichen Daten trainiert werden. GPT-4V kann ein gesamtes urheberrechtlich geschütztes Trainingskorpus so leicht waschen, dass es nicht mehr wiederzuerkennen ist. Zum Beispiel indem man 40 % umschreibt und Autor sowie Quelle entfernt. Dann gibt es kein urheberrechtlich geschütztes Material mehr, das GPT-5 ausspucken könnte
Zweitens gehen Forschung, Hosting und Fortschritt weiter. Die USA können das nicht aufhalten, sie können sich nur dafür entscheiden, zurückzufallen. Die Welt macht weiter, und China wird amüsiert zusehen, wie sein größter Konkurrent intellektuellen Selbstmord begeht, um rent-seeking Medienunternehmen zu besänftigen
Drittens können Modelle Gewichte teilen, miteinander gemergt werden, zusammenarbeiten, entfernt werden und sich über mehrere Release-Generationen hinweg weiterentwickeln. Das Urheberrecht ist hoffnungslos ungeeignet, in dieser Suppe von KI-Abstammungslinien, die mit Daten unklarer oder zweifelhafter Herkunft erhitzt wurde, Verletzer aufzuspüren
Ob es uns gefällt oder nicht: Wir leben in einem neuen intellektuellen Zeitalter. Die NYT und andere werden auf dieser Welle mitsurfen, ob sie wollen oder nicht
- Das ist eine wirklich schlechte Auslegung. Es ist ein Appell an die Folgen. Ich halte es für völlig legitim, dass die New York Times rechtliche Schritte einleitet. Sie hat Zeit und Mühe in die Erstellung von Inhalten investiert, und diese wurden ohne Erlaubnis für finanziellen Gewinn genutzt. Das ist eine klare Verletzung
  Betrachtet man die Fair-Use-Faktoren, könnte beim Zweck und Charakter der Nutzung künftig vielleicht ein Transformationsargument greifen, aber der aktuelle Streit dreht sich darum, dass der Originaltext unverändert verwendet wurde. Daher ist es eindeutig nicht transformativ. Die kommerzielle Nutzung macht eine Fair-Use-Beurteilung ebenfalls schwieriger
  Bei der Art des geschützten Werks haben eher faktische Werke Chancen, als Fair Use anerkannt zu werden, aber NYT-Artikel sind meiner Ansicht nach sowohl faktisch als auch schöpferisch
  Beim Umfang und der Wesentlichkeit der Nutzung wurden ganze Artikel verwendet, daher gibt es keinen Spielraum zu behaupten, es sei nur ein unwesentlicher kleiner Teil genutzt worden
  Auch bei den Auswirkungen auf den Marktwert bekommt die NYT kein Geld, und wenn Leute NYT-Artikel nicht lesen, sondern sie in ChatGPT nachschlagen, kann das dem Marktwert kaum helfen
  Ich bin kein Jurist, aber ich denke, die NYT hat jedes Recht, Klage einzureichen. Fortschritt ist unvermeidlich, aber Menschen müssen ihn aktiv gestalten und lenken. Sonst kann man ihn nicht Fortschritt nennen. Rechtliche Schritte sind hier ein notwendiges Mittel, damit Einzelpersonen und Organisationen ihre Rechte geltend machen und die Richtung beeinflussen können
- „Rent-seeking Medienunternehmen“? Sind Medienunternehmen, die tatsächlich Inhalte erstellen, rent-seeking? Im Vergleich zu dem halluzinierten Müll, den KI produziert?
- Mit „China sieht amüsiert zu, wie die USA intellektuellen Selbstmord begehen“ ist jenes China gemeint, das bereits umfassende Regulierung für KI eingeführt hat?
  In mindestens einem Fall musste ein chinesisches Startup seinen neu gestarteten Chatbot schließen, weil er zum Ukrainekrieg Dinge sagte, die nicht zur offiziellen Parteilinie passten
  https://finance.yahoo.com/news/beijing-tries-regulate-china-...
  https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
  Ich stimme zu, dass Forschung, Hosting und Fortschritt weitergehen, aber ich bin mir nicht sicher, ob China der Nutznießer ist, nur weil die USA dieser Achterbahnfahrt ein paar Sicherheitsvorkehrungen hinzufügen
- Sind Medien wirklich rent-seeking? Sie erstellen neue Inhalte und Analysen und möchten dafür bezahlt werden. Das wirkt ziemlich anders, als natürliche Ressourcen oder Land zu horten
- Die erste Regel des Internets lautet: „Wenn du es ins Internet stellst, gehört es nicht mehr dir“
  Man muss dem nicht zustimmen, und man muss es nicht mögen. Aber wenn man es akzeptiert und danach lebt, verbrennt man sich deutlich seltener
Die Klageschrift selbst ist dieses von arstechnica verlinkte Dokument: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
Ab Seite 30 gibt es ziemlich klare Beispiele dafür, dass ChatGPT interne Kopien urheberrechtlich geschützter Materialien hat und sie wortgetreu rezitiert
Im Kern wurde massenhaft urheberrechtlich geschütztes Material in irgendeinen Blob kopiert und anschließend verlustbehaftet komprimiert. Wie verlustbehaftet muss diese Kompression sein, damit das Urheberrecht nicht mehr greift? Vermutlich ziemlich stark
Was OpenAI retten könnte, ist ausgerechnet die Geschlossenheit. OpenAI kann durch einfaches Matching gegen die urheberrechtlich geschützten Teile des Datensatzes, mit dem ChatGPT trainiert wurde, im Webinterface filtern und blockieren, dass urheberrechtlich geschütztes Material aus dem LLM herausgelangt. Ein Open-Source-Projekt, das mit demselben Datensatz trainiert wurde, hätte dagegen die deutlich schwierigere Aufgabe, urheberrechtlich geschütztes Material aus dem LLM selbst zu entfernen
- Das Ziel hinter „viel urheberrechtlich geschütztes Material kopieren, in einen Blob stecken und verlustbehaftet komprimieren“ dürfte wohl eher sein: „so weit, dass niemand merkt, dass es gestohlen wurde“
  Also so, dass es nicht leicht entdeckt wird oder dass selbst bei direkter Analyse genug plausible Abstreitbarkeit bleibt, um davonzukommen
- Ich frage mich, wie dieses Ergebnis zustande kam. Es zeigt nämlich keine normale UI, also keinen ChatGPT- oder Copilot-Bildschirm
  Schwer zu sagen, ob es aus den Trainingsdaten wiederholt wird oder ob derselbe Fehler gemacht wurde wie im Originalartikel: Copilot wurde genutzt, um zuerst den Artikel zu suchen/per Bing zu finden und dann darauf zu antworten
- Die Antwort auf „Geschlossenheit“ ist extern kontrolliertes Auditing
Wenn man die Beispiele in der Klage für „Fair Use“ hält, sollte man darüber nachdenken, was das bedeutet. Im Grunde würde man einigen Unternehmen mit fast keinen Regeln erlauben, den gesamten Wert des Internets in ihre Blackbox zu integrieren; das wirkt sehr gefährlich
Selbst wenn es nicht dieser Fall ist: Ich hoffe, dass das Gericht hier die Spielregeln festlegt
- Ich sehe es genau umgekehrt. Wenn hochwertige Daten Milliarden Dollar kosten, wird es für kein Open-Source-Modell mehr möglich sein, die Trainingskosten zu stemmen
  Bis jemand synthetische Daten löst, werden in diesem Bereich nur noch Player wie OpenAI und Google übrig bleiben
- Scraping ist legal, und das sieht nach einem transformativen Werk aus
- Auch die andere Seite ist beunruhigend. Das Recht des geistigen Eigentums war schon immer kompliziert, schmutzig, widersprüchlich und moralisch ambivalent
  Die Kontroverse um Verletzungen geistigen Eigentums durch LLMs bringt diese inhärenten Mängel sofort ans Licht und erzwingt am Ende Entscheidungen, die Präzedenzfälle für die Legalität menschlichen Denkens schaffen. Damit wird sich niemand wohlfühlen
  Ich verstehe, dass es gefährlich sein kann, OpenAI und Microsoft zu viel Ermessensspielraum zu geben, aber dabei übersieht man, dass Unternehmen wie Disney das Urheberrecht seit Jahrzehnten faktisch zu großen Teilen mitbestimmen. Sie dürften sich die Finger danach lecken, dass ein Präzedenzfall entsteht, nach dem man schon dafür zahlen muss, mit einem Medium oder einer Information auf irgendeiner Ebene zu interagieren
  Letztlich merken wir gerade, dass wir ein riesiges Wirtschaftssystem auf der grundlegend fehlerhaften Idee des Eigentums an Ideen aufgebaut haben. Die Lösung wäre, das Regelwerk zu zerreißen, was sehr schmerzhaft wäre, oder noch stärker darauf zu setzen, was tödlich wäre
- Die Gerichte haben das bereits entschieden
  In Japan hieß es, bei KI sei alles möglich
  Man sollte besser keinen Wettbewerbsvorteil dadurch verlieren, dass man etwas öffentlich ins Internet stellt. Wenn man es für alle sichtbar veröffentlicht, muss man damit rechnen, dass andere es verwenden
Entwickler tun gern so, als wären LLMs menschenähnlich und hätten Materialien wie die NYTimes wie Menschen als Lernmaterial genutzt
Das stimmt aber nicht. Einfacher betrachtet wurde proprietärer Text nun in den Quellcode von OpenAI integriert. Es ist so, als würde ich Teile eines anderen proprietären Codes kopieren und in meine Codebasis einfügen und dann behaupten, Copy-and-paste sei ein natürlicher Evolutionsprozess über Millionen Jahre hinweg
Dass ein LLM zu komplex ist, um zu wissen, wo das steckt, macht es nicht weniger dazu
- Das ist kein Copy-and-paste, sondern verlustbehaftet komprimiert. Selbst GPT-4 hat bei Weitem nicht genug Speicher, um die gesamten Trainingsdaten in einem verlustfreien Kompressionsformat zu speichern. Es ist eher so, wie Menschen gelesene Informationen komprimieren
- Entwickler, die glauben, LLMs seien menschenähnlich, gehören nicht gerade zu den Klügsten und werden normalerweise verspottet
- „Proprietärer Text wurde in den Quellcode von OpenAI integriert“ stimmt nicht
  Der Quellcode eines LLM besteht wahrscheinlich aus ein paar Hundert Zeilen Text, die die Form des im Modell enthaltenen neuronalen Netzes beschreiben
  Inhalte der NYTimes werden nicht im Quellcode stecken. Die NYTimes veröffentlicht keinen Python-Quellcode, sondern Nachrichten in menschlicher Sprache
  LLMs sind konzeptionell einfach und bestehen größtenteils aus Matrixmultiplikationen, nichtlinearen Operationen, die die einzelnen Schichten verbinden, sowie Attention-basierten Schleifen. Komplex wird es durch die enorme Menge an Trainingsdaten und Rechenaufwand
Alle Unternehmen mit Content wittern Geld
Die NYT hätte wohl nichts dagegen, ihre Inhalte für das Training von LLMs zu verwenden. Solange sie dafür Gebühren bekommt. Reddit wird seine kostenlose API schließen und Geld verlangen, wenn man Trainingsinhalte haben will. Discord wird Inhalte für KI-Training verkaufen, falls es das nicht schon tut. Twitter macht es auch
Früher waren LLMs nur ein Experiment, also war es ihnen egal. Jetzt stehen Billionen Dollar an Wert auf dem Spiel
- Die NYT „hat“ Inhalte nicht, sie erstellt Inhalte. Das ist ihr Existenzzweck
- Zu „ihnen“ gehören auch die Menschen, die dort arbeiten. Wenn jemand hauptberuflich Artikel schreibt, warum sollte er diese Arbeit kostenlos abgeben, damit jemand anderes damit trainiert und anschließend Geld verdient?
- Wenn es ihnen egal war, als LLMs noch ein Experiment waren, und sie erst jetzt handeln, wo ein Wert von Billionen Dollar sichtbar wird, kann man dann argumentieren, dass die NYT selbst schuld ist, weil sie die Zukunft nicht vorausgesehen und geschlafen hat und OpenAI und anderen „im Nachhinein versehentlich“ kostenlosen, öffentlichen und unbegrenzten Zugang zu ihren Inhalten erlaubt hat?
Die Sichtweise der NYT wird wirklich töricht wirken, wenn man LLMs künftig in mechanische Körper steckt, die mit der physischen Welt interagieren und in Echtzeit lernen und Gewichte aktualisieren können
Für solche Roboter könnte es dann komplett illegal sein, urheberrechtlich geschütztes Material zu lesen, zu sehen oder zu hören. Sie könnten nicht fernsehen, keine Bücher aus der Bibliothek lesen und nicht im Internet surfen. Denn dabei könnten sie Teile urheberrechtlich geschützter Inhalte auswendig lernen
- Ich stimme nicht zu. Das Problem ist der Teil wortwörtlich. Du vergleichst es mit der Funktionsweise von Menschen, aber auch Menschen dürfen das nicht
  Für Menschen wäre es schwieriger, aber wenn jemand ein urheberrechtlich geschütztes Buch auswendig lernt und es dann live im Fernsehen vorliest oder aus dem Gedächtnis eine Kopie erstellt und verkauft, wird er verklagt
  Menschen erstellen ständig abgeleitete Werke, und dass LLMs das tun, ist in Ordnung. Aber wortwörtlich dürfen sie es nicht
- Das Auswendiglernen ist nicht das Problem. Das Problem ist, es wortwörtlich zurückzugeben oder den Zugang zur Quelle zu ersetzen
  Es gibt Menschen mit fotografischem Gedächtnis; wenn Leute statt eine Zeitung zu kaufen diese Person bitten würden, ihnen die Nachrichten auswendig aufzusagen, entstünde dasselbe Problem
  Die derzeitige öffentliche Aufführung urheberrechtlich geschützter Materialien ist eine Verletzung
- Sind solche LLMs unabhängige Bürger, denen Rechte gewährt werden? Dann ist es in Ordnung
  Oder gehören sie alle einem einzigen Großkonzern und werden genutzt, um, wie es der Kapitalismus tut, aus uns allen Geld herauszupressen? Dann bin ich für ein Verbot
- Wenn ein LLM in einem Körper die nytimes auf einem Tablet lesen darf, dürfte die NYT wohl auch nichts dagegen haben
Seit ChatGPT erschienen ist, wird argumentiert, dass LLMs als transformative Werke unter Fair Use fallen sollten. Ich bin kein Jurist, nur eine Laienmeinung, aber es wird interessant sein zu sehen, was das Rechtssystem dazu sagt.
- Die Klage behauptet, GPT habe Absätze der NYT nahezu wortwörtlich reproduziert.
- Wenn man die Größe der Trainingsdaten bedenkt und sich vorstellt, dass eine bestimmte Ausgabe das Ergebnis einer Interpolation unzähliger Trainingsbeispiele vieler verschiedener Menschen ist, wirkt diese Sichtweise plausibel.
  Wenn man Bruchstücke aus Dutzenden, Hunderten oder Tausenden von Quellen entlehnt, wessen Urheberrecht wird dann verletzt? Auch Musik-Remixe entlehnen aus mehreren Quellen, und wenn die Musik klar anders und originell ist, scheinen sie rechtlicher Prüfung bis zu einem gewissen Grad standzuhalten.
  Die pauschale Behauptung, LLMs oder heutige KI fielen unter Fair Use, wird jedoch schwerer zu verteidigen, wenn ein Modell wiederholt vollständige und identifizierbare Einzelwerke reproduziert und in konkreten Fällen offensichtlich gegen das Urheberrecht verstößt. In den meisten Fällen mag das Modell remixen oder transformativ sein, aber es gibt Hinweise darauf, dass es das nicht jedes Mal und immer tut. Vielleicht wird die Klage ein Anlass, KI so zu verbessern, dass sie bestimmte Werke nicht reproduziert, wodurch das Fair-Use-Argument solider und tatsächlich verteidigbar würde.
- Diese Frage wird letztlich zwangsläufig bis vor den Supreme Court gehen. Je früher, desto besser, denke ich. Es ist eindeutig Fair Use. Generative Agents werden rechtlich nicht anders betrachtet werden als menschliche Künstler, die die Summe all ihrer Einflüsse nutzen, um ein neues Werk zu schaffen.
- Was passiert, wenn man ChatGPT bittet, einen Artikel aus seinem eigenen Datensatz wortgetreu mit Quellenangabe auszugeben?
- Auch Inhalte hinter einer Paywall?
Diese Situation wurde in dem sehr einflussreichen Video EPIC 2014 aus dem Jahr 2004 vorhergesehen.
https://www.youtube.com/watch?v=eUHBPuHS-7s Das Original war Flash und ist im Gedächtnisloch verschwunden; übrig ist nur diese minderwertige Konvertierung.
36 Sekunden: „Doch die Presse, wie Sie sie kannten, existiert nicht mehr“
40 Sekunden: „Die Nachrichtenorganisationen des 20. Jahrhunderts sind zu Randfiguren geworden. Ein einsames Überbleibsel einer nicht allzu fernen Vergangenheit“
2 Minuten 11 Sekunden: „2002 startet Google außerdem Google News, ein Nachrichtenportal. Die Nachrichtenorganisationen wehren sich. Google News wird vollständig von Computern redigiert“
5 Minuten 13 Sekunden: „Die Nachrichtenkriege von 2010 sind bemerkenswert, weil keine einzige echte Nachrichtenorganisation daran beteiligt ist. Googlezon setzt Microsoft schließlich mit Funktionen schachmatt, mit denen der Softwaregigant nicht mithalten kann. Mithilfe eines neuen Algorithmus ziehen Googlezons Computer dynamisch Sätze und Fakten aus allen Inhaltsquellen heraus und kombinieren sie neu, um neue Artikel zu erstellen. Die Computer schreiben für jeden Nutzer einen neuen Artikel“
5 Minuten 55 Sekunden: „2011 erwacht die schlafende vierte Gewalt und leistet ihren ersten und letzten Widerstand. Die New York Times Company verklagt Googlezon mit der Begründung, dass die Faktenextraktions-Roboter des Unternehmens gegen das Urheberrecht verstoßen. Der Fall geht bis vor den Supreme Court“
Die Details haben nicht genau gestimmt, aber die allgemeine Trefferquote ist erstaunlich. Allerdings könnte es in dieser Timeline auch eine Art Produkt von Hyperstition sein.
https://en.wikipedia.org/wiki/EPIC_2014 Ich dachte, EPIC 2014 sei vielleicht das einzige Flash-Video mit einem Wikipedia-Artikel, aber bei der Suche stellte sich heraus, dass es noch fünf weitere gibt.

Copyright-Klage der NY Times fordert Löschung aller GPT-Instanzen von OpenAI

Beklagte und zentrale Forderungen

Die Schadensstruktur aus Sicht der Times

Streitpunkte zur Nutzung von Trainingsdaten

Das Reproduktionsproblem bei der Ausgabe

Widerlegung von Fair Use und Reputationsschäden

Wirecutter und das Problem der Affiliate-Einnahmen

Rechtliche Ansprüche

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News