4 Punkte von laeyoung 2025-09-06 | 1 Kommentare | Auf WhatsApp teilen
  • Anthropic hat zugestimmt, eine Klage mit Autorinnen und Autoren für 1,5 Milliarden Dollar beizulegen
  • Die 1,5 Milliarden Dollar sind die höchste Entschädigungssumme in der Geschichte von US-Urheberrechtsklagen
  • Anthropic plant, 500.000 Autorinnen und Autoren 3.000 Dollar pro Werk zu zahlen

1 Kommentare

 
GN⁺ 2025-09-07
Hacker-News-Kommentare
  • Artikel über archive.ph ansehen

  • Ich möchte klarstellen, dass es hier nicht um das Modelltraining an sich geht.
    Das Training selbst fällt unter Fair Use; problematisch ist das unerlaubte Kopieren der Bücher, also Piraterie, und Anthropic hat so etwas beim Sammeln der Daten versehentlich getan.
    Gebrauchte Bücher zu kaufen, einzuscannen und zum Training zu verwenden, wäre in Ordnung.
    Rainbows End war in vielerlei Hinsicht ein seiner Zeit vorausgehender Roman.

    • Zur Meinung, dass das Kaufen und Einscannen gebrauchter Bücher in Ordnung sei: Ich glaube nicht, dass es in der Praxis ein Unternehmen gibt, das so vorgehen würde.
      Wenn Milliarden an VC-Geldern auf dem Spiel stehen, wird wohl niemand gemütlich Buch für Buch kaufen und scannen.
      Alle werden sich dafür entscheiden, mögliche Strafen in Kauf zu nehmen, und die Höhe dieser Strafen reicht bei weitem nicht aus, um abschreckend zu wirken.
      Das ist wie bei Uber, das anfangs ohne Taxilizenz Geschäfte machte und die Krise später mit Investorengeldern, Strafzahlungen und Lobbyarbeit überstand.
      Auch für Anthropic war es viel schneller und effizienter, einfach massenhaft DRM-freie PDFs und ePUBs einzuspeisen, als mit jedem einzelnen Verlag Lizenzverträge abzuschließen.

    • Dies ist ein Vergleich, also weder ein Präzedenzfall noch ein Eingeständnis von Rechtswidrigkeit.
      Weder dass Training Fair Use ist noch dass das Scannen zulässig ist, wurde hiermit endgültig festgestellt.
      Diese Fragen müssen künftig von anderen weiter ausgefochten werden.

    • Ich stimme zu, dass der Roman Rainbows End seiner Zeit voraus war.
      Für Menschen, die gern lesen, ist es ein großartiges Buch, und der Autor Vernor Vinge hat auch den Begriff „singularity“ popularisiert.
      Informationen zu Rainbows End auf Goodreads

    • Ich finde schon die Vorstellung seltsam, gebrauchte Bücher kaufen zu müssen, um sie zu lesen.
      Ich denke, jeder Mensch sollte das Recht haben, alle Bücher in einer Bibliothek frei zu lesen.
      Wissen ist in dieser Welt da, um bereitgestellt zu werden, und Menschen sollten aktiv darauf zugreifen können.

    • Ich frage mich, was Aaron Swartz gedacht hätte, wenn er dieses Zeitalter erlebt hätte, in dem libgen selbstverständlich geworden ist.

  • Hier eine Zusammenfassung der Vergleichsbedingungen.

  1. Einrichtung eines Entschädigungsfonds von mindestens 1,5 Milliarden US-Dollar; auf Basis von 500.000 Werken in dieser Kategorie werden 3.000 US-Dollar pro Werk gezahlt.
    Wenn die Zahl der Werke 500.000 übersteigt, erhöht sich die Summe um weitere 3.000 US-Dollar pro zusätzlichem Werk.
  2. Anthropic wird alle von LibGen und PiLiMi erhaltenen Datensätze vernichten, unabhängig von Anforderungen zur rechtlichen Beweissicherung.
  3. Von der Haftung für frühere Verletzungen befreit sind nur Werke, die bis zum 25. August 2025 in der offiziellen „Works List“ enthalten sind.
    Künftige Verletzungen sowie Verletzungen durch generative AI-Ausgaben werden durch diesen Vergleich nicht erledigt.
  • Ein wichtiger Punkt ist, dass überhaupt kein „rechtlicher Präzedenzfall“ entstanden ist.
    Wenn es ähnliche Klagen gibt, muss alles wieder von vorn ausgefochten werden.
    Oft greift man zu einem solchen Vergleich nur dann, wenn man glaubt, sonst zu verlieren.
    Das ähnelt Googles Fall gegen Epic, bei dem man sich noch vor einem Gerichtsurteil schnell auf einen nachteiligen Vergleich einließ.

  • Der Vergleich betrifft nicht nur eine Entschädigung, sondern auch die Vernichtung der Datensätze.
    Dem Artikel zufolge behauptet Anthropic, dass man „dieses illegale Material tatsächlich nicht verwendet“ habe.
    Wenn ein generatives AI-Unternehmen mit solchen Raubkopie-Daten trainiert und dies auch noch kommerzialisiert hätte, könnte das die gesamte Branche erschüttern.
    Ich frage mich, wie viele solcher Fälle noch auftauchen werden.

  • Wenn man so rechnet, wäre es dann nicht viel günstiger, einfach alle Bücher zu kaufen?

  • Ich bin überrascht, dass es nur 500.000 Werke sein sollen.
    Ich hatte den Eindruck, dass Hunderttausende oder sogar Millionen Bücher heruntergeladen worden seien.

  • Ich frage mich, ob Autorinnen und Autoren selbst teilnehmen können.

  • „3.000 US-Dollar pro Werk“ klingt nach einem ausgesprochen guten Deal, um Bücher per Urheberrechtsvertrag zu lizenzieren.

  • Man bekommt den Eindruck, dass all dieses Kapital am Ende nur eingesammelt wurde, um es an Verlage weiterzureichen.
    Ich stelle mir schon den Pitch an Investoren vor: „Wir werden uns auf große Ausgaben wie Prozesskosten vorbereiten.“

    • Laut Artikel hat Anthropic kürzlich weitere 13 Milliarden US-Dollar eingesammelt und seit der Gründung insgesamt mehr als 27 Milliarden US-Dollar erhalten.
      Selbst eine gewaltige Entschädigungssumme ist gemessen an den eingesammelten Investitionen eher klein.

    • Es klingt wie ein Scherz, aber ich halte das tatsächlich für einen hervorragenden Investor-Pitch.
      Die Beseitigung potenzieller Risiken durch rechtliche Probleme steigert den Unternehmenswert.
      Vor allem macht die Auflösung rechtlicher Unsicherheiten Investitionen in vergleichbare Unternehmen attraktiver.

    • Ehrlich gesagt glaube ich, dass das System genau so funktioniert.
      Jede einzelne Chance oder jeder Vorteil hängt davon ab, ob sie dem bestehenden Kapital nützen.
      Solange man einen plausiblen Vorwand dafür hat, wie das Geld geflossen ist, sind die Details aus Sicht des Kapitals nicht besonders wichtig.
      Sobald das Geld geflossen ist, geht es nur noch darum, eine Geschichte zu bauen, die hinterher alle plausibel finden.
      Auch dieser Vergleich schafft ein Narrativ, mit dem beide Seiten leben können: „Training ist in Ordnung, das Problem war die Piraterie.“
      Der Hauptgrund scheint gewesen zu sein, einen Präzedenzfall zu vermeiden, nach dem AI-Training selbst illegal wäre.

    • Anthropic wollte eine Strategie, mit der man Regulierung umgeht und schnell handelt.
      Niemand hat das Unternehmen dazu gezwungen.

  • Falls man Autor ist, gibt es Hinweise auf Materialien und Verfahren, mit denen sich prüfen lässt, ob die eigene Arbeit enthalten war.
    Anleitung zum Suchen nach Autorennamen im LibGen-Datensatz
    Kontakt registrieren auf der offiziellen Vergleichsseite

  • Aus Sicht von Open-Source-AI ist das sehr bedauerlich.
    Auch die Nutzung piratisierter Materialien für das Training sollte unter Fair Use fallen.
    Andernfalls können nur große Unternehmen mit viel Kapital wie Anthropic hohe Summen an Verlage zahlen, um AI zu entwickeln, und es gäbe praktisch keinen Weg, Milliarden Bücher zu kaufen und fürs Training zu nutzen.

    • Das ist lediglich ein Vergleich, kein Präzedenzfall und auch kein Eingeständnis von Rechtswidrigkeit.
      Tatsächlich können sich ohnehin nur große Unternehmen teure Ingenieure und Zehntausende GPUs leisten.
      In der Praxis werden Grassroots-LLM-Communities vermutlich nicht besonders sensibel auf die Rechtmäßigkeit ihrer Trainingsdaten achten.

    • Bei Fair Use geht es nicht darum, wie man an das Material gelangt, sondern darum, was man nach „rechtmäßigem Zugang“ damit tut.
      Wenn man keinen rechtmäßigen Zugang hatte, ist eine Fair-Use-Diskussion von vornherein ausgeschlossen.

    • Diese Diskussion scheint von der Annahme auszugehen, dass Modelltraining selbst eine Art Recht sei.

    • Ich frage mich, was es tatsächlich kosten würde, alle gewünschten Bücher zu kaufen und dann mit ihnen ein Modell zu trainieren.

  • Ein Gedanke, der mir dazu kommt: Gibt es eine Möglichkeit, Inhalte im Web nur für Menschen kostenlos bereitzustellen und die Nutzung durch AI-Crawler als Piraterie zu behandeln, sodass sie wie in diesem Fall bestraft werden könnte?

    • Auf die erste Frage würde ich sagen: Das ließe sich mit einer Login-Schranke und einem Zustimmungsverfahren zu Vertragsbedingungen umsetzen, aber konkrete Vertragsklauseln wie etwa tatsächliche Schadensersatzsummen müssten Anwälte prüfen.

    • Ehrlich gesagt würde ich diese Methode nicht empfehlen.
      Das Problem ist, dass auch Automatisierungstools wie Userscripts dann potenziell als Verletzung gelten könnten.

    • Es scheint auch möglich, ein Captcha-System einzubauen, das als DMCA-Schutzmaßnahme gelten könnte.
      Man könnte denselben Inhalt auch über eine kostenpflichtige API anbieten.

    • Ich denke, rechtlich wie technisch ist das nicht möglich.

    • Vermutlich kann man es versuchen, aber das Urheberrecht ist wegen seiner zahlreichen Ausnahmen sehr komplex.
      Zum Beispiel wäre eine Klausel wie „alle Nutzung erlaubt, nur akademische Nutzung verboten“ nicht zwingend für Universitäten verbindlich.
      Wenn ein Gericht LLM-Training bereits als transformative use eingestuft hat, gibt es auch mit einer Klausel wie „nur LLM-Training verboten“ keinen besonders stärkeren Durchsetzungsweg.
      Das ist ähnlich wie bei einem Musiker, der erklärt: „Meine Musik darf nur vollständig gehört werden, Sampling ist verboten“ — das hätte ebenfalls keine Wirkung.
      Der Zweck des Urheberrechts ist die „Förderung von Wissenschaft und nützlichen Künsten“, und der Zugang der Wissenschaft wiegt schwerer als die individuelle Kontrolle des Autors.
      Auch Lehrbücher sind urheberrechtlich geschützt, und wenn es tatsächlich eine wissenschaftliche Fair-Use-Ausnahme gibt, könnte Kopieren frei zulässig sein; dass dies in der Praxis nicht konsequent beachtet wird, macht die Sache zusätzlich verwirrend.

  • Aus internationaler Perspektive frage ich mich, welche Wirkung rechtliche Sanktionen oder Vergleiche jeweils in anderen Ländern haben, ob dort neue Klagen möglich sind und ob zusätzliche Sanktionen folgen könnten.

  • Für die chinesische AI-Branche wirkt das wie ein großer Vorteil.
    Westliche Unternehmen unterliegen immer mehr Beschränkungen bei Datensammlung und Training, während AI-Unternehmen in China oder anderen Ländern deutlich mehr und qualitativ bessere Daten nutzen können.