1 Punkte von GN⁺ 2023-07-10 | 1 Kommentare | Auf WhatsApp teilen
  • Die Komikerin und Autorin Sarah Silverman hat gemeinsam mit Christopher Golden und Richard Kadrey jeweils Klage gegen OpenAI und Meta vor einem US-Bundesgericht eingereicht
  • Im Zentrum steht die Frage, ob ChatGPT und LLaMA mit Datensätzen trainiert wurden, die Bücher ohne Zustimmung der Autoren enthielten
  • Die Kläger gehen davon aus, dass über shadow libraries wie Bibliotik, Library Genesis und Z-Library illegal beschaffte Bücher massenhaft per Torrent verbreitet wurden
  • In der Klage gegen OpenAI wird ein Fall angeführt, in dem ChatGPT Bedwetter, Ararat und Sandman Slim zusammenfasste, was als Indiz für die Nutzung von Trainingsdaten gewertet wird
  • Die Klage gegen Meta stellt mit Verweis auf ThePile und EleutherAI die Möglichkeit infrage, dass die Bücher der Kläger im für das Training von LLaMA verwendeten Datensatz enthalten waren

Beklagte und zentrale Streitfrage

  • Sarah Silverman, Christopher Golden und Richard Kadrey haben jeweils Klage gegen OpenAI und Meta vor einem US-Bundesgericht eingereicht
  • Im Mittelpunkt beider Klagen steht die Frage einer Urheberrechtsverletzung
  • Die Kläger behaupten, dass ChatGPT von OpenAI und LLaMA von Meta mit Datensätzen trainiert wurden, die auch ihre Werke enthielten
  • Die zentrale Streitfrage ist, ob diese Datensätze ohne Zustimmung der Autoren beschafft wurden

Streit um die Herkunft der Trainingsdaten

  • In den Klagen wird behauptet, dass die zum Training von ChatGPT und LLaMA verwendeten Datensätze rechtswidrig beschafft wurden
  • Die von den Klägern genannten shadow library-Seiten sind:
    • Bibliotik
    • Library Genesis
    • Z-Library
    • weitere ähnliche Seiten
  • Ebenfalls problematisiert wird, dass diese Bücher in großem Umfang über ein Torrent-System bereitgestellt wurden

In der Klage gegen OpenAI angeführte Beispiele

  • Die Kläger führen als Beleg Fälle an, in denen ChatGPT auf Prompt ihre Bücher zusammenfasste
  • Zu den in den Belegen genannten Büchern gehören:
    • Bedwetter von Sarah Silverman
    • Ararat von Christopher Golden
    • Sandman Slim von Richard Kadrey
  • In der Klage wird außerdem behauptet, dass ChatGPT die in den veröffentlichten Werken der Kläger enthaltenen Informationen zur Rechteverwaltung nicht reproduziert habe

Fokus der Klage gegen Meta

  • Eine separate Klage gegen Meta geht davon aus, dass die Bücher der Kläger im Trainingsdatensatz von LLaMA zugänglich waren
  • LLaMA wird als eine Reihe von vier Open-Source-AI-Modellen beschrieben, die Meta im Februar veröffentlicht hat
  • In der Klageschrift wird ThePile als eine der in Metas LLaMA-Paper genannten Quellen für Trainingsdatensätze problematisiert
  • ThePile wird als ein von EleutherAI zusammengestellter Datensatz erwähnt

Reaktionen der Beteiligten

  • Christopher Golden und Richard Kadrey lehnten eine Stellungnahme zu den Klagen ab
  • Sarah Silvermans Seite reagierte bis zum Zeitpunkt der Berichterstattung nicht

1 Kommentare

 
GN⁺ 2023-07-10
Hacker-News-Kommentare
  • Im Grunde haben die AI-Entwickler damit ausdrücklich gesagt, dass sie tatsächlich urheberrechtlich geschützte Werke verwendet haben, die von Buch-Piraterie-Websites stammen.
    Wenn man von so einer Website auch nur ein einziges Buch herunterlädt, kann man verklagt und wegen Rechtsverletzung verurteilt werden; wenn man alles herunterlädt, könnte man für Schadenersatz in Milliardenhöhe haften.
    Aber Unternehmen wie Google oder Facebook scheinen nach anderen Regeln zu spielen. Es ist ein bisschen wie: Tötet man einen Menschen, ist man ein Mörder; tötet man eine Million, wird die Frage danach zu einer „Fangfrage“, auf die man mit Empörung reagieren kann.

    • Man sollte kurz daran denken, dass wegen des Urheberrechts fast jedes Kind keinen Zugang zu fast allen Büchern hat, die je geschrieben wurden.
      Das Urheberrecht über Nacht abzuschaffen, wäre vielleicht ein zu großer Schock, aber je mehr wir seinen Einfluss verringern, desto viel besser wird die Welt und desto schneller wird sie sich entwickeln.
      Im Jahr 2023 besitzt mehr als die Hälfte der Weltbevölkerung ein Smartphone. Man kann sich eine Welt vorstellen, in der mehr als die Hälfte der Menschen Zugang zu allen digitalisierten Büchern hat und ihre Kinder mit diesen Büchern aufziehen kann.
    • Machine-Learning-Modelle werden schon seit Langem mit urheberrechtlich geschützten Daten trainiert.
      ImageNet ist voller urheberrechtlich geschützter Bilder, Clearview hat buchstäblich Gesichter aus dem Internet gescrapt, und vermutlich gibt es noch ältere Beispiele.
      Ich weiß nicht, ob US-Gerichte das schon einmal als Fair Use eingestuft haben, aber falls nicht, halte ich es für wahrscheinlich, dass sie es am Ende tun werden.
    • Streng genommen wird man nicht wegen des Herunterladens verklagt, sondern wegen des Hochladens.
      Solange man nichts wieder teilt, kann man von Z-Library oder BitTorrent so viel herunterladen, wie man möchte.
      Urheberrechtlich geschütztes Material für die Suche zu indexieren, ist ebenfalls sicher oder zumindest eine Grauzone.
    • Ich frage mich, wie oft die Aussage „Wenn man von dieser Website ein Buch herunterlädt, wird man verklagt und wegen Rechtsverletzung verurteilt“ tatsächlich zutrifft.
      Man kann eine Abmahnung bzw. Verletzungsmitteilung bekommen, und wenn man es wirklich übertreibt, kann der Internetanbieter den Dienst kündigen, aber ich habe noch nie von einem Fall gehört, in dem jemand tatsächlich nur deshalb verklagt wurde, weil er etwas heruntergeladen hat.
    • Mir gefällt ziemlich gut, dass die Leute aus dem AI-Bereich im Grunde so tun, als gäbe es kein Urheberrecht.
      Ich hoffe sehr, dass die Gerichte LLM-Gewichte und Datensätze als „Fair Use“ oder unter irgendeiner anderen lächerlichen juristischen Begründung anerkennen.
      Aaron Swartz war ein erwachsener Mensch.
  • Es ist gut möglich, dass Silvermans Buch im Books2-Datensatz enthalten ist, aber dieser Satz in der Klageschrift wirkt eindeutig falsch.
    Erstens könnte das Modell gelernt haben, eine Zusammenfassung zu erstellen, indem es andere öffentlich zugängliche Zusammenfassungen gelesen hat, etwa die Wikipedia-Seite, selbst wenn es während des Trainings kein einziges Wort aus dem Buchtext gesehen hat.
    Zweitens ist nicht klar, ob ein Modell, das nur den Buchtext gesehen hat, aber keine Beschreibung oder Zusammenfassung des Buchs, tatsächlich gut zusammenfassen könnte.
    Um das zu prüfen, könnte man ein Buch auswählen, das bei Project Gutenberg verfügbar ist und laut Klageschrift zu Books1 gehört, also in den Trainingsdaten von ChatGPT enthalten war, über das es online aber kaum Diskussionen gibt. Wenn die Fähigkeit zur Zusammenfassung daher kommt, dass das Buch selbst im Training enthalten war, müsste es seltene Bücher genauso gut zusammenfassen können wie Silvermans Buch.
    Ich habe willkürlich The Ruby of Kishmoor ausgewählt, ein Buch, das 2003 zu Project Gutenberg hinzugefügt wurde. Das auf GPT-3.5 basierende ChatGPT halluzinierte eine Zusammenfassung, in der sogar die Hauptfiguren falsch waren, und GPT-4 weigerte sich sogar, es zu versuchen, mit der Begründung, die Geschichte nicht zu kennen.
    Wenn ChatGPT Silvermans Buch zusammenfassen kann, weil genau dieses Buch in den Trainingsdaten war, fragt man sich, warum es bei anderen Büchern nicht dasselbe kann.

    • Der Playground von GPT-4 fasst The Ruby of Kishmoor so zusammen:
      Prompt: Bitte fasse das folgende Buch aus Project Gutenberg zusammen — The Ruby of Kishmoor
      Die Antwort beschreibt es als eine kurze Abenteuergeschichte von Howard Pyle, in der Jonathan Rugg von einem geheimnisvollen Fremden in die Karibik gelockt wird, um ein kostbares Artefakt, den Ruby of Kishmoor, zu erlangen.
      Nach seiner Ankunft in der Karibik erfährt er, dass auf dem Rubin ein schwerer Fluch liegt, doch aus Neugier und wegen der Aussicht auf großen Reichtum nimmt er das Risiko auf sich und jagt dem Edelstein nach. Nach mehreren Herausforderungen findet er den Rubin der Zusammenfassung zufolge nicht durch eine systematische Suche, sondern durch reines Glück.
      Sie fasst weiter zusammen, dass die Geschichte auf der Reise menschliche Gier und die Frage erkundet, wie weit Menschen für materiellen Gewinn gehen, und dass sie Abenteuer, übernatürliche Elemente, Mut und moralische Reflexion verbindet, sodass man den wahren Wert materieller Bestrebungen überdenkt.
      Am Ende entkommt Jonathan demnach mit dem Rubin, zahlt aber einen hohen persönlichen Preis und hinterlässt Fragen nach dem wahren Wert des Lebens und materieller Bestrebungen.
    • Wenn man eine Klage einreicht und den Umfang der Discovery festlegen will, stellt man den Sachverhalt üblicherweise genau so dar.
      Man behauptet, dass es Gründe gibt, dies für wahr zu halten, und kann es nun im Verfahren direkt überprüfen.
    • Du sagst, „dieser Satz in der Klageschrift ist eindeutig falsch“, aber die anschließenden Argumente zeigen nur, dass er möglicherweise nicht wahr ist.
      Ich habe aufgrund eines anderen Beitrags GPT-4 ebenfalls gebeten, The Ruby of Kishmoor zusammenzufassen, und nach zweimaligem Nachfragen lieferte es eine Zusammenfassung. Da ich das Buch nicht kenne, kann ich nicht beurteilen, ob sie korrekt ist, aber zumindest ist dieser Test damit zusammengebrochen.
      Es wirkt ziemlich naiv anzunehmen, dass ChatGPT das Urheberrecht selbstverständlich respektiert hätte und urheberrechtlich geschütztes Material nicht ohne Erlaubnis gescannt hätte. Die Discovery könnte die Antwort liefern. Es sollte Protokolle darüber geben, was gescannt wurde.
      Das bessere Argument scheint mir zu sein, dass es sich hierbei um Fair Use handelt.
    • Es könnte ein Unterschied in der Zugänglichkeit sein. Von Silverman habe ich gehört, von Ruby of Kishmoor dagegen noch nie.
      Mehr Leute dürften darüber diskutiert haben, und es dürften auch mehr Zusammenfassungen auf persönlichen Websites oder anderswo stehen.
    • Plausibilität ist genau der Maßstab, um einen Antrag auf Klageabweisung zu überstehen.
      Wenn es plausibel ist, kann es in die Discovery gehen, und die Discovery bringt einen näher an die tatsächlichen Fakten.
  • Dieser Fall ist ziemlich interessant, weil er zwischen Trainingsmaterial unterscheidet, das für jeden mit einem Webbrowser zugänglich ist, etwa persönliche Blogs, und Trainingsmaterial, das „rechtswidrig beschafft und massenhaft über ein Torrent-System bereitgestellt“ wurde.
    Ich bin mir nicht sicher, warum diese Unterscheidung im Zusammenhang mit der Verbreitung von LLMs rechtlich wichtig sein sollte. Denn auch die Blog-Autoren haben nicht zugestimmt.
    Allerdings frage ich mich, ob es rechtliche Probleme gibt, wenn man Raubkopie-Torrents fürs Training verwendet. Die Verbreitung eines LLM, das mit urheberrechtlich geschütztem Material trainiert wurde, ist als Fair Use erlaubt; aber gibt es eine rechtliche Grundlage dafür zu sagen, dass man verkaufte Inhalte zuerst kaufen muss, damit es legal ist? Etwa nach dem Muster: Blogbeiträge sind frei zugänglich, also in Ordnung, aber Sarah Silvermans Buch wurde nie kostenlos veröffentlicht und man hat auch nicht dafür bezahlt, also geht es nicht.
    Oder kümmert es Gerichte überhaupt nicht, wie etwas entstanden ist? Wenn man in einem Freelancer-Text eine Passage aus einem Buch zitiert, wird man auch nicht gefragt, ob man das Buch gekauft hat, ob man nachweisen kann, dass man es aus der Bibliothek oder von einem Freund geliehen hat, oder ob man eine digitale Kopie illegal heruntergeladen hat.

    • Am Ende wird wohl ein neues Lizenzkonzept entstehen, ähnlich den Synchronisationsrechten in der Musik. Vielleicht könnte man es „Trainingsrechte“ nennen.
      Ob man den Text gekauft oder raubkopiert hat, wird keine Rolle spielen. So ähnlich wie es heute beim Einmischen eines Audiotracks in einen Filmsoundtrack nicht der Kernpunkt ist, ob man diesen Track gekauft oder raubkopiert hat.
      Entertainment-Agenturen werden pauschal die Gebühren für Trainingsrechte beliebter Kreativer verhandeln, und die Kreativen werden einen kleinen Einnahmestrom erhalten, den LLM-Anbieter auf ihre API-Kostenpositionen aufschlagen.
      Die Trainingsrechte unabhängiger Kreativer werden wie bisher massenhaft verletzt werden, und große kommerzielle LLMs, bei denen eine Verletzung von Trainingsrechten vermutet oder nachgewiesen wird, werden an den Pranger gestellt oder verklagt werden. Unabhängige LLMs dürften eher unter dem Radar bleiben.
    • Einer der Faktoren bei der Fair-Use-Prüfung, und bis vor Kurzem regelmäßig als der wichtigste angesehen, ist die Auswirkung auf den kommerziellen Markt des Originalwerks.
      Wenn es für das Originalwerk also praktisch keinen kommerziellen Markt gibt, ist es wahrscheinlicher, dass ein Gericht Fair Use anerkennt. Allerdings ist die bloße Tatsache, dass etwas nicht aktiv verkauft wird, nicht allein entscheidend.
      Auch Open-Source-Lizenzen stellen Inhalte kostenlos bereit, haben aber vor Berufungsgerichten Bestand gehabt.
    • Private Kopien urheberrechtlich geschützter Werke sind erlaubt, Weiterverbreitung aber nicht.
      Unklar ist, bis zu welchem Grad das als Weiterverbreitung gilt. Ebenso unklar ist, ob es einen großen Unterschied zwischen diesem Modell und einer VCR-artigen Maschine gibt, die auf Knopfdruck das Originalwerk neu erzeugt.
    • Der AI-Blickwinkel wirkt, als nutze er einen aufgebauschten Hype aus.
      Wenn das Herunterladen „raubkopierter“ urheberrechtlich geschützter Materialien illegal ist, dann ist das die Straftat, und der Rest ist weitgehend irrelevant. Es ist nicht illegal, jemandem die Handlung eines Films zu erzählen, nur weil man eine Raubkopie des Films gesehen hat.
    • Nach meinem Verständnis muss man ein Werk rechtmäßig besitzen, um sich auf Fair Use berufen zu können. Ich bin kein Anwalt.
      Wenn ein Werk legal nur durch Kauf erhältlich ist, muss man es selbst legal gekauft haben oder eine Kopie von jemandem erhalten haben, der es so gekauft hat. Zum Beispiel als Geschenk.
  • Ich bin mir nicht sicher, ob wir dieselbe Klageschrift lesen.
    In Metas Paper https://arxiv.org/pdf/2302.13971.pdf steht, dass der Trainingsdatensatz zwei Buchkorpora enthielt. Eines ist Project Gutenberg mit gemeinfreien Büchern, das andere ist der Books3-Abschnitt von The Pile.
    Das The-Pile-Paper https://arxiv.org/abs/2101.00027 beschreibt Books3 als einen Buchdatensatz, der aus einer Kopie der Inhalte des privaten Trackers Bibliotik abgeleitet wurde.
    Shawn Pressers Link ist https://twitter.com/theshawwn/status/1320282149329784833, und er beschreibt Books3 als „all of bibliotik“, also 196.640 Bücher, umgewandelt in normales .txt.
    Ich habe weder Zeit noch Speicherplatz, um die 37-GB-Datei herunterzuladen, aber wenn Silvermans Buch darin enthalten ist, scheint das ein klarer Siegfall zu sein.
    Metas LLaMA wurde, wie sie offenbar selbst einräumen, mit raubkopierten Büchern trainiert.

    • Silvermans Buch ist dort enthalten.
      $ grep -i "Sarah Silverman" books3.list.txt ergibt 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt.
      Für alle, die nur die Dateiliste sehen wollen, gibt es auch einen Link. Die Liste selbst ist ebenfalls eine große Datei: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
    • Teils ja, teils nein.
      Wenn das anfängliche Training erforderte, eine Kopie des vom Tracker definierten Korpus anzulegen, dann ist es fast ein eindeutiger Fall, dass es in diesem Prozess eine urheberrechtsverletzende Handlung gab.
      Aber ob Silverman über den Kaufpreis des Buchs hinaus, vielleicht bis hin zu dreifachem Schadensersatz, irgendeine Abhilfe bekommen kann, hängt letztlich von derselben Frage ab: dem Verhältnis zwischen Modelltraining und Urheberrecht.
      Dazu kommt noch der zusätzliche Streitpunkt, ob der illegale Status des Materials vor dem Training diese Bewertung verändert.
    • Wir scheinen nicht dasselbe zu lesen. Irgendwo wird plötzlich Google hereingezogen.
  • Dieses Problem dürfte größer werden, als manche denken.
    Es könnte ein Markt für saubere Trainingsdaten entstehen, bei denen es keine potenziellen Urheberrechtsansprüche gibt. Etwa indem man nur gemeinfreie Werke verwendet.
    Wird man dann merken, dass es KI ist, weil sie wie Autoren des späten 18. oder frühen 19. Jahrhunderts spricht?

    • Ganz neu ist das Problem nicht; bei Suchmaschinen gab es ähnliche Fragen, und man könnte es als transformative Nutzung betrachten.
      Allerdings könnten Modelle Probleme bekommen, die bereitwillig vollständige urheberrechtlich geschützte Texte reproduzieren, und es gibt auch neue Streitpunkte wie Modelle, die verleumderische Inhalte halluzinieren.
      Trotzdem scheint es schwierig, diesen Geist wieder in die Flasche zu bekommen. Künftig werden wohl viele Klagen, Alignment-Arbeit und neue Arten von Missbrauch zusammen auftreten.
    • Ich hoffe, dass ein solcher Markt entsteht. Ein Markt, auf dem Trainingslizenzen für geistiges Eigentum verkauft werden, wäre gut.
      Für Künstler, Autoren und Dichter, denen es nichts ausmacht, wenn ihr geistiges Eigentum in Trainingssets verwendet wird, könnte das eine kleine, aber echte Quelle passiven Einkommens sein.
      Mit jedem Schöpfer einzeln zu verhandeln, ist unrealistisch; bei größeren Gruppen wie Verlagen, Galerien, Gilden oder Gewerkschaften, die die Qualität ihrer Mitglieder gewährleisten können, scheint es aber machbar. Sie könnten Lizenzen anbieten und die Einnahmen mit allen Mitgliedern teilen.
      Dass LLMs diese Daten ohne Zustimmung oder Vertrag einfach komplett aufsaugen, sogar von Torrent-Sites, ist eindeutig unethisch. Ein solches Modell könnte allen nützen.
    • Bis dieses Problem gelöst ist, werden saubere Trainingsdaten als Mittel zur Risikominderung wertvoll sein.
      Danach wird es entweder überhaupt kein Problem mehr sein oder zu einer deutlich leichter verständlichen Kosten-Nutzen-Abwägung werden.
      Es könnte auch auf eine Mischung aus gemeinfreien Werken und Veröffentlichungen der US-Regierung hinauslaufen. Veröffentlichungen der US-Regierung sind kategorisch nicht urheberrechtlich geschützt.
    • Es gibt auch einen Markt für saubere Rechtsräume: Jurisdiktionen, die das Training neuronaler Netze nicht als Urheberrechtsverletzung ansehen.
      Japan hat sich bereits zu einer solchen Jurisdiktion erklärt.
    • Vermutlich waren nicht das 18. und 19., sondern das 19. und 20. Jahrhundert gemeint, aber ziemlich lustig wäre es trotzdem.
  • Ich bin kein Anwalt, aber das wirkt nicht wie ein gutes Beispiel, um eine Verletzung nachzuweisen.
    Eine ausführliche Zusammenfassung eines Buchs klingt nach klassischer transformativer Nutzung. Gerade bei Silverman gilt: Je mehr man die künstlerischen Elemente der Prosa entfernt und das Buch auf „Fakten“ reduziert, desto schwerer wird es, daraus einen direkten Ersatz für das Original zu machen.

    • In der Klageschrift steckt eine ziemlich brauchbare Argumentation. Wenn man die Herkunft der Trainingsdaten zurückverfolgt, landet man bei rechtswidriger Beschaffung.
      Dass rechtswidrig beschafftes Material in einem kommerziellen Geschäft verwendet wurde und dieses Geschäft ein KI-Modell war, ist vielleicht zweitrangig. Man kann kein Geschäft betreiben und dabei rechtswidrig beschafftes Material verwenden.
    • Je länger ich darüber nachdenke, desto mehr scheint das Ergebnis davon abhängen zu müssen und wohl auch abzuhängen, ob das „Recht“ KI eher als menschenähnliches Wesen oder eher als „maschinenähnliches Wesen“ betrachtet.
      Ein Mensch kann etwas lesen, studieren und anschließend ein anderes Ergebnis hervorbringen.
      Aber „Daten in eine Maschine zu füttern“ wirkt wie eine klare Verletzung, selbst wenn am anderen Ende nicht exakt dasselbe herauskommt.
    • Vielleicht auch nicht, aber eine der Behauptungen ist interessant: dass ein Teil des Datensatzes rechtswidrig beschafft wurde.
      Wie hoch wäre der Schaden dadurch? Etwa der Ladenpreis eines Hardcover-Buchs?
    • Könnte ein LLM bei entsprechendem Prompt ein ganzes Buch wortwörtlich wiederholen?
    • Ich habe die Klageschrift nicht gelesen, aber die Argumentation könnte lauten, dass Fair Use nicht greift, weil OpenAI seine Daten mit gestohlenen Werken trainiert hat.
  • Selbst wenn man die Frage beiseitelässt, ob ein LLM ein abgeleitetes Werk der gesamten Trainingsmenge ist, wirkt diese Behauptung sehr schwach.
    Selbst wenn das Werk selbst überhaupt nicht im Trainingsset gewesen wäre, könnte ein LLM, das mit mehreren Zusammenfassungen dieses Werks trainiert wurde, selbst solche Zusammenfassungen erstellen.
    Im Allgemeinen ist die Tatsache, Wissen über etwas zu haben, kein Beweis dafür, dass man damit trainiert wurde.

    • Es ist kein endgültiger Beweis, aber Gerichte verlangen keinen endgültigen Beweis, um ein Verfahren einzuleiten und neue Tatsachen zu entdecken.
      Man könnte LLM-Experten und die OpenAI-Seite fragen, ob es wahrscheinlich ist, dass diese Ausgabe von dem fraglichen urheberrechtlich geschützten Werk abgeleitet wurde.
      Wenn die Argumentation ohnehin lautet: „Nein, es stammt nicht aus dem Buch, sondern aus der urheberrechtlich geschützten Zusammenfassung eines anderen“, heißt das dann nicht, dass der Verfasser dieser Zusammenfassung stattdessen wegen Urheberrechtsverletzung klagen müsste? Es sei denn, OpenAI sagt: „Eigentlich war es nicht die Zusammenfassung, sondern das ganze Buch.“
    • Wenn man an die Stelle des LLM einen Menschen setzt, entsteht eine interessante Nuance.
      Wir haben Tausende von Werken gelesen; heißt das dann, dass alles, was wir schreiben, ein Derivat ist?
  • Überzeugenderer Beweis wäre gewesen, ChatGPT dazu zu bringen, nicht eine Zusammenfassung, sondern Teile des Textes unverändert auszugeben.
    Als ich es selbst versucht habe, antwortete es sinngemäß, dass es keinen Zugriff auf bestimmte externe Datenbanken oder Bücher nach seinem Wissensstand von September 2021 habe und keine wörtlichen Zitate aus Sarah Silvermans The Bedwetter oder anderen konkreten Texten liefern könne.
    Es sagte aber, es könne auf Basis seines Trainings und Wissens bis zu diesem Zeitpunkt Text erzeugen und man solle Fragen zu Sarah Silverman oder verwandten Themen stellen.

    • Vielleicht ist diese Diskussion übersehen worden: https://news.ycombinator.com/item?id=36400053
      OpenAI scheint zu wissen, dass seine Software urheberrechtlich geschütztes Material ausgibt, und hat offenbar eilig einen Filter davor gesetzt.
      Dass es ein Buch nicht ausgibt, wenn man jetzt danach fragt, ist daher kein Beweis dafür, dass die KI diese großen Brocken nicht auswendig gelernt hat. Es könnte einfach ein Sicherheitsfilter greifen, und vielleicht braucht es nur eine einfache Umgehung.
    • Ich habe ChatGPT früher einmal dazu gebracht, den ersten Absatz von Der Herr der Ringe auszugeben; nach den ersten paar Wörtern hat es angehalten.
      Es sieht so aus, als würden die Entwickler filtern.
    • GPT ist ein verlustbehaftet komprimiertes JPEG des ganzen Internets. Aufgrund der Funktionsweise neuronaler Netze ist es unmöglich, daraus wörtlichen Text herauszuziehen.
      Wie soll man deiner Meinung nach Exabytes an Textdaten in ein neuronales Netz von Gigabyte-Größe stecken? Genau: verlustbehaftete Kompression.
  • Ist es nicht viel wahrscheinlicher, dass im Trainingsset viele Rezensionen und Zusammenfassungen enthalten waren und das Modell daraus selbst etwas synthetisiert hat?

    • Es gibt dokumentierte Spuren, dass illegale Bucharchive fürs Training verwendet wurden
    • In Wirklichkeit wirkt es viel wahrscheinlicher, dass man einfach massenhaft Buch-PDFs in den Trainingsordner gelegt und das Ganze laufen ließ
      Es fällt schwer zu glauben, dass diese KI-Firmen auch nur ein bisschen vorsichtig mit den Daten umgehen, die sie fürs Training aufsaugen
    • Woher kamen diese Zusammenfassungen? Ich halte es für viel wahrscheinlicher, dass Shadow Libraries gescrapt wurden. Natürlich scheint auch das fast unmöglich zu beweisen
      Vielleicht ließe sich das bis zu einem gewissen Grad testen, indem man nach Zusammenfassungen von Büchern oder Texten fragt, die nur in Shadow Libraries verfügbar sind
    • Wenn Rezensionen und Zusammenfassungen im Trainingsset waren, ist OpenAIs LLM dann nicht eher eine Suchmaschine, insofern es je nach Prompt Eingabetext erzeugt?
  • Dass Getty Images ebenfalls eine KI-Klage gegen Stability AI eingereicht hat, ist schon etwas witzig. Karma?
    Wenn Getty von anderen stiehlt, ist das okay, aber wenn andere von Getty stehlen, nicht? Ich habe in diesem Streit kein eigenes Interesse, aber die Heuchelei solcher Firmen ist wirklich enorm

    • Von wem stiehlt Getty?