Anthropic zerschnitt und scannte Millionen Gebrauchtbücher für das Training von Claude und lud 7 Millionen Raubkopien herunter

(businessinsider.com)

6 Punkte von GN⁺ 2025-07-08 | 1 Kommentare | Auf WhatsApp teilen

Laut einem Richter hat Anthropic zum Training des KI-Chatbots Claude Millionen gebrauchter Bücher zerlegt und gescannt
Im Urteil wird außerdem erwähnt, dass das Unternehmen separat mehr als 7 Millionen raubkopierte Bücher heruntergeladen hat
Der Richter entschied, dass die Digitalisierung gekaufter Bücher und ihre Nutzung als Trainingsdaten unter Fair Use fallen
Dagegen werde die Nutzung von Raubkopien nicht als Fair Use anerkannt und stelle eine Urheberrechtsverletzung dar
Das Urteil gilt als wichtiger Präzedenzfall für die Anwendung des Urheberrechts beim Training von KI-Modellen

Überblick

Richter William Alsup vom US-Bezirksgericht für den Nördlichen Bezirk von Kalifornien stellte fest, dass Anthropic für das Training des KI-Chatbots Claude verschiedene Materialien wie Bücher, Social-Media-Beiträge und Videos als Datenquellen genutzt hat
Anthropic investierte Millionen Dollar in den Kauf großer Mengen gebrauchter Bücher, löste anschließend die Bindung und schnitt die Seiten ab, um sie in digitale Dateien umzuwandeln
Die konvertierten Dateien wurden in einer internen Research Library gespeichert, die Originalbücher wurden entsorgt
Zudem lud Anthropic, das von Amazon und Alphabet unterstützt wird, separat mehr als 7 Millionen raubkopierte Bücher herunter und nutzte sie für das Training des Claude-Modells

Nutzung von Büchern und Einsatz von Raubkopien

Der Mitgründer von Anthropic, Ben Mann, räumte ein, 2021 mindestens 5 Millionen Bücher illegal von Library Genesis heruntergeladen zu haben
2022 kamen mindestens 2 Millionen weitere Bücher von Pirate Library Mirror hinzu
Mitgründer und CEO Dario Amodei soll gesagt haben, er ziehe es vor, Bücher zu stehlen (steal), um „rechtlichen, praktischen und geschäftlichen Ärger“ zu vermeiden
2023 reichten drei Autoren eine Sammelklage gegen Anthropic ein und warfen dem Unternehmen vor, unerlaubt Raubkopien ihrer Bücher verwendet zu haben

Einschätzung des Richters: Unterschied zwischen Fair Use bei Büchern und bei Buchpiraterie

Punkt 1: Fair Use anerkannt
- Der Richter bewertete die Massendigitalisierung von Büchern durch Anthropic und deren Nutzung als KI-Trainingsdaten als „äußerst transformativ (exceedingly transformative)“
- Im Urteil heißt es, „das LLM von Anthropic lernt nicht, um bestehende Werke einfach zu kopieren oder zu ersetzen, sondern um etwas vollständig Neues zu schaffen“
- Die Digitalisierung von Büchern, die das Unternehmen selbst gekauft hat, und ihre Aufbewahrung in einer Bibliothek fallen unter Fair Use
Punkt 2: Nutzung von Raubkopien ist kein Fair Use
- Der Richter kritisierte Anthropic scharf dafür, piratisierte Bücher (Raubkopien) als Daten zu verwenden
- Wörtlich heißt es, „Anthropic hatte kein Recht, raubkopierte Bücher in seiner zentralen Bibliothek zu verwenden, und der Aufbau einer dauerhaften, universellen Bibliothek rechtfertigt Fair Use nicht von selbst“

Auswirkungen und Branchentrends

Das Urteil ist einer der ersten Fälle dazu, ob die Nutzung urheberrechtlich geschützter Bücher als Trainingsdaten für KI-Modelle unter Fair Use fällt
Zuletzt haben Kreative, Künstler und Medienhäuser in ähnlichen Verfahren fortlaufend Klagen gegen OpenAI und mehrere Unternehmen für generative KI eingereicht
Die KI-Branche argumentiert, dass das Training von KI-Modellen in den Bereich des Fair Use falle, während Kreative ihre Rechte als verletzt ansehen
Kürzlich hat Disney das KI-Bildgenerierungsunternehmen Midjourney wegen Verletzung der Urheberrechte an seinen Figuren verklagt

Fazit

Der Teil des Urteils zu Bücherdigitalisierung und Fair Use bei Anthropic wird als Wendepunkt für KI-Forschung und die Auslegung des Urheberrechts bewertet
Umgekehrt wird die Nutzung von Raubkopien klar als Urheberrechtsverletzung eingestuft und dürfte künftig ein wichtiger Bezugspunkt für Standards beim Sourcing von KI-Trainingsdaten sein

1 Kommentare

GN⁺ 2025-07-08

Hacker-News-Kommentare

Link zum Originalartikel
Zusammenfassung der wichtigen Entscheidung des Richters: Dass Anthropic urheberrechtlich geschützte Bücher für das KI-Training genutzt hat, wurde als Fair Use eingestuft, weil es „hochgradig transformativ“ sei. Anthropic argumentierte, man habe lediglich gekaufte physische Bücher digital in einer zentralen Bibliothek archiviert und weder neue Kopien erstellt noch weiterverbreitet. Das „Piratisieren einer Bibliothek“ sei hingegen eine eindeutige Urheberrechtsverletzung. Interessant ist, dass der Richter anerkennt, dass das Scannen und Digitalisieren einer Bibliothek zur internen Nutzung zulässig sein kann, und auch die Nutzung für KI-Training als Fair Use bewertet.
- Wichtig ist auch, was der Richter zu einem anderen Punkt gesagt hat. Er zieht klar die Grenze, dass die Nutzung raubkopierter Bücher als zentrale Bibliothek durch Anthropic kein Fair Use ist. Anders gesagt: Bücher selbst kaufen, physisch scannen und fürs KI-Training verwenden ist Fair Use, Piratenkopien zu verwenden hingegen nicht
- Ich halte dieses Urteil nicht für neu. Google hat meines Wissens schon vor über zehn Jahren den Präzedenzfall geschaffen, dass die Digitalisierung von Büchern zulässig sein kann
- Soweit ich weiß, hat Richter Vince Chhabria im Folgeprozess mit Meta den Fair-Use-Anspruch in Frage gestellt relevanter Link (ich bin kein Jurist)
- Ich frage mich, ob hier auch das Prinzip der „fruit of the poisonous tree“ greift
- Wenn man bedenkt, dass man Aaron Swartz früher für fast dasselbe praktisch lebenslang einsperren wollte, merkt man, wie stark sich die Zeiten geändert haben
Ein realer Strafrechtsfall gegen eine Person wegen massiver Urheberrechtsverletzung Referenzartikel
- Eigentlich hätte ich eher erwartet, dass jemand den Fall Aaron Swartz erwähnt
- Als ich den Artikel anklickte, stellte sich heraus, dass es faktisch um ein Unternehmen ging, das Raubkopien von Software im Wert von mehreren Millionen Dollar „verkauft“ hat. Nicht bloß jemand, der sie privat benutzt, sondern ein klarer Fall von Diebstahl mit anschließendem Weiterverkauf zur Gewinnerzielung. Das ist ein völlig anderer Fall als transformative Nutzung oder private Verwendung
- Anthropic verkauft das Material nicht. Wenn eine Privatperson ein Buch liest und zusammenfasst oder teilweise zitiert, landet sie vermutlich auch nicht im Gefängnis. Und trotzdem gab es für den Widerstand gegen Autodesk sieben Jahre Haft — härter als manche Raubdelikte. Das zeigt recht gut die Realität im Rechtssystem
- Ich denke, der bloße illegale Nachdruck und Verkauf von Raubkopie-Software ist sehr etwas anderes als ein Fall wie bei Anthropic, wo Bücher verwendet wurden. Anthropic hat nie „Kopien“ eines bestimmten Buchs erstellt und verbreitet
- Der Witz lautet: Wenn du das Gesetz brechen willst, gründe zuerst eine Kapitalgesellschaft, damit du die Verantwortung abwälzen kannst. Eine satirische Zuspitzung der Realität, dass mit genug Kapital sogar Rechtsverstöße abgedeckt werden können
Es gibt Hinweise darauf, dass auch Unternehmen wie Spotify anfangs auf illegalem Material aufgebaut haben. Schon lange gab es Gerüchte, dass in Betatests „raubkopierte“ mp3-Dateien verwendet wurden. Manche berichten, Tracks mit „Scene“-Tags heruntergeladen zu haben relevanter Artikel
- Crunchyroll war ursprünglich ebenfalls eine Piraten-Streaming-Seite für Anime, wurde aber durch den Erwerb offizieller Lizenzen legalisiert. Start 2006, VC-Investment 2008, Lizenzabschlüsse 2009 Forbes-Artikel, VentureBeat-Artikel
- Eigentlich nicht nur Spotify — die meisten Tech-Giganten verdienen Geld, indem sie rechtliche Grauzonen ausnutzen oder Regulierung ignorieren, also den Markt „disrupten“. Der unrechtmäßige Gewinn ist oft deutlich größer als mögliche Strafen. Seit Amazon ist es, denke ich, auch üblicher geworden, mit Investorengeld „fairen Wettbewerb“ zu ignorieren und Preise zu dumpen. US-Big-Tech-Unternehmen sind im Grunde gewachsen, indem sie das Recht weitgehend entmachtet haben
- „Nicht offiziell bezogene Audiodateien“ und „nicht urheberrechtlich geschützte Audiodateien“ sind verschiedene Dinge. Selbst wenn Streaming-Lizenzen gesichert sind, kann es Fälle geben, in denen die Originaldateien fehlen
- Es wird auch erwähnt, dass Spotifys frühe UI fast 1:1 von Limewire kopiert wirkte
- Google Music hatte ebenfalls ein Modell, bei dem Nutzer selbst mp3-Dateien usw. hochladen konnten, und damals hieß es, die Illegalität der Dateien liege nicht in Googles Verantwortung. Amazon hatte wohl einen ähnlichen Dienst Referenztext
Ich frage mich, wie Leute, die behaupten, die Zukunft der KI zu bauen, ihre Ethik auf diese Weise über Bord werfen können. China wurde jahrzehntelang wegen Fälschungsproblemen sanktioniert; wenn Anthropic ebenfalls in illegale Aktivitäten verwickelt war, fände ich Exportbeschränkungen auch hier gerechtfertigt
- Ich frage mich, was wir gegen Chinas Fälschungsprobleme tatsächlich getan haben. Meist ging es doch nur darum, eingeführte Fälschungen abzufangen; echte Strafen gab es kaum. Im Gegenteil: US-Unternehmen haben die Produktion lange dorthin ausgelagert und damit erst das Umfeld für IP-Diebstahl geschaffen
- Wirklich unethisch sind eher die Unternehmen, die die Bücher gar nicht erst kaufen. In der Realität kommt man mit wirtschaftlicher und juristischer Macht eben leichter davon
- Hier wird auf die in der Gesellschaft allgegenwärtigen doppelten Maßstäbe und die faktische Immunität von Macht hingewiesen. Mit Beispielen wie Trunkenheit am Steuer, Gewalt oder Steuerhinterziehung wird betont, dass sich die Gesellschaft nach Macht, Reichtum und Einfluss richtet. Wenn ein Verlag mein Buch kopiert, kann ich klagen; wenn ein KI-Unternehmen es stiehlt, machen große Kanzleien schon die Klage selbst fast unmöglich. Gleichheit ist in der realen Welt eine Illusion, und die Erfolgreichen sind immer im Vorteil
- Wie beim Facebook-Slogan gilt: „Move fast and break things“ ist die Tugend der Zeit
- Ich verstehe nicht, warum es unethisch sein soll, die in Büchern enthaltenen Informationen zu nutzen. Anthropic hat die Bücher nicht weiterverkauft. Die Information selbst ist nicht urheberrechtlich geschützt. Zitieren war schon immer möglich
Dem Anthropic-Mitgründer Ben Mann wird vorgeworfen, 2021 Millionen raubkopierter Bücher von Library Genesis heruntergeladen zu haben. Diebstahl ist Diebstahl. Man solle mit den doppelten Standards aufhören
- Die meisten Piraten handeln bloß zum „persönlichen Konsum“, aber durch Piraterie auf „Gewinnerzielung“ hinzuarbeiten, ist eine andere Größenordnung
- Das ist nicht bloß einfacher Diebstahl. Gezielt zu stehlen, um Marktdominanz zu erreichen und Unternehmen zu verdrängen, die sich ethisch verhalten, verursacht unzähligen Autoren noch größeren Schaden. Ich würde das eher als „organisierte Kriminalität“ sehen
- „Diebstahl ist Diebstahl“ ist zu simpel. Selbst wenn jemand Ware aus dem Laden trägt, unterscheiden sich die Strafen je nach Umständen massiv. Die Details sind entscheidend
- Man sollte zuerst genau definieren, was unter „Diebstahl“ fällt
- „Kopieren ist nicht dasselbe wie Diebstahl“ — wenn jemand etwas kopiert, besitzt die ursprüngliche Person ihre eigene Kopie immer noch. Wenn man Kopieren als „Diebstahl“ bezeichnet, lassen sich damit auch andere radikale Behauptungen begründen
In der Realität großskaligen KI-Datentrainings sind Piratenkopien plus mögliche Geldstrafen viel günstiger, als Millionen Bücher einzeln zu kaufen und zu verarbeiten. Das lässt sich natürlich nicht rechtfertigen, aber aus reiner Effizienz heraus würde man an ihrer Stelle womöglich dieselbe Entscheidung treffen — genau darin liegt die Diskrepanz
- Das Problem an dieser Logik ist, dass viele Lehrer und Autoren, die jahrelang Bücher geschrieben haben, sich nicht einmal eine Klage leisten können, wenn große Konzerne ihre Urheberrechte verletzen. Am Ende geben Autoren das Schreiben auf, und es heißt, dass dieser Effekt bereits zu sehen ist
- Vorsätzliche Verletzung kann mit bis zu 150.000 US-Dollar pro Werk geahndet werden. Wenn über jedes verletzte Werk geurteilt würde, könnte die Summe höher sein als die Marktbewertung von Anthropic. In der Praxis werden solche quasi übergesetzlichen Maßstäbe aber nicht angewendet, und schon Anfang der 2000er galten für die jugendlichen Napster-Betreiber andere Maßstäbe als heute
- „Führt Piraterie nicht ins Gefängnis?“ — mit Blick auf die FBI-Warnungen auf DVDs wäre es nach strengem Prinzip ein schweres Verbrechen
- Dem Artikel zufolge gibt es allerdings auch viele Fälle, in denen Anthropic große Mengen an Büchern regulär gekauft und dann fürs Training verwendet hat. Unter den Büchern in der Klage sind ebenfalls regulär erworbene Exemplare. Gebrauchtbücher sind bei Großkäufen billiger
- Wenn man rechtlich auf „null“ Risiko gehen will, müsste man direkt Verlage kontaktieren und Lizenzen für KI-Training aushandeln. Genau so machen es Netflix, Spotify und alle anderen Medienunternehmen. Warum man bei KI-Unternehmen plötzlich andere Maßstäbe anlegt, verstehe ich nicht
Wenn ich ein Buch besitze, sollte es meiner Meinung nach legal sein, es auf meinem Computer zu scannen. Ich habe auch etwas Mitleid mit der Lage der KI-Unternehmen. Es fühlt sich an, als würden die Urheberrechtsregeln immer stärker speziell gegen KI verschärft. Wenn ich aus dem Inhalt eines Buchs Ideen ziehe und etwas Neues erschaffe, schulde ich dem Urheberrecht des Buchs meiner Meinung nach nichts
- Man muss den Artikel richtig lesen. Dort steht ausdrücklich, dass man sein eigenes Buch scannen und fürs KI-Training verwenden kann. Eigentlich ist dieses Urteil eine große positive Nachricht für KI-Unternehmen. Ich verstehe nicht, wie man das gegenteilig auslegen kann
- In der Fair-Use-Debatte wird oft übersehen, ob die konkrete Nutzung dem Markt des Rechteinhabers tatsächlich substanziell schadet. Wenn eine Person aus einem Buch lernt und dann mit dem Autor konkurriert, ist dieser Einfluss schwer nachzuweisen. Aber Einkommensverluste von Autoren durch ein Modell, das durch massenhaftes KI-Training veröffentlicht wird, lassen sich vergleichsweise klarer belegen. Wenn KI Autoren auf Basis ihrer Werke ersetzen kann, entspricht das nicht dem Sinn von Fair Use
- Das Urheberrecht wirkt nicht wie ein logisch konsistentes System. Auch sein ursprünglicher Zweck — Informationsfreiheit und Innovationsförderung — ist unscharf. Die Auslegung des Rechts hängt von der subjektiven Sicht des Richters ab. Letztlich lautet die reale Logik des Rechts wohl „Geld“, und die Macht des Urheberrechts wird von großem Kapital aufrechterhalten. Wenn es dem Kapital nun im Weg steht, werden wir wohl erleben, wie sich auch die Argumente rund um DRM und Urheberrecht verändern
- Ab einer bestimmten Größenordnung funktioniert alles anders. Individuelle Rechte und Normen lassen sich nicht einfach unverändert auf Megasysteme anwenden, und gesellschaftlich braucht es diese Unterscheidung auch. Diejenigen mit Geld haben dafür gesorgt, dass dieses Problem ignoriert wird, und die eigentliche Ursache des Chaos ist die fehlende Regulierung von „Skalierung“
- Kurzfassung: Der Richter sagt, dass die Nutzung von Büchern zum Trainieren von Claude Fair Use ist, die Nutzung von „Piratenkopien“ dagegen illegal
Ich denke, dass YouTube in letzter Zeit das Blockieren von Downloads vielleicht auch deshalb verschärft hat, um konkurriernde KI-Unternehmen daran zu hindern, Datensätze zu sammeln
Es ist leicht, andere zu verurteilen, aber selbst der Top-Kommentar im aktuellen Thread verlinkt letztlich Inhalte, die von Business Insider „gestohlen“ wurden. Niemand ist wirklich fair
- Ich frage mich, inwiefern das Inhalte sind, die von Business Insider „gestohlen“ wurden. Der gleiche Artikel ist auch auf der offiziellen Website zu sehen, und Browser-Cache oder Archive sind im Wesen nicht so verschieden
- Das ist der beste Kommentar im heutigen Thread. Ich finde es interessant, hier diese logischen Verrenkungen zu beobachten

Anthropic zerschnitt und scannte Millionen Gebrauchtbücher für das Training von Claude und lud 7 Millionen Raubkopien herunter

Überblick

Nutzung von Büchern und Einsatz von Raubkopien

Einschätzung des Richters: Unterschied zwischen Fair Use bei Büchern und bei Buchpiraterie

Auswirkungen und Branchentrends

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare