- KI übernimmt Eingaben zum Training, unabhängig davon, ob die ursprünglichen Urheber zugestimmt haben, verkauft die Ergebnisse und entschädigt die ursprünglichen Urheber nicht
- Auch die Kunden von KI-Unternehmen (und KI-Tools) verkaufen die per Prompt erzeugten Ergebnisse erneut an andere Kunden weiter und erzielen Gewinne mit Inhalten, die aus dem gesamten Internet kopiert wurden
- Die eigenen Tutorials zum E-Commerce wurden durch eigene Recherche erstellt, doch einige Websites ließen ChatGPT einfach ein paar erfolgreiche Tutorials kopieren und veröffentlichten sie anschließend als eigene Texte
- Die kopierten Texte rangieren in den Google-Suchergebnissen höher als die Originale
- In den kopierten Texten blieben Links zur ursprünglichen Website mit exakt demselben Linktext erhalten; durch diese nicht entfernten Links ließ sich die Kopie nachweisen
- Google zeigt Websites, die Originale kopieren, höher als die Originale selbst an und schafft so eine Struktur, in der unerlaubt kopierte Inhalte in der Suche belohnt werden
1 Kommentare
Hacker-News-Meinungen
Es gibt einen Fehlschluss, der zur Rechtfertigung solcher Dinge oft benutzt wird: „Wenn etwas im kleinen Maßstab okay oder vernachlässigbar ist, dann ist es auch im großen Maßstab okay.“
Von einer einzelnen Webseite zu lernen und damit Geld zu verdienen, sei okay, aber warum sollte es dann ein Problem sein, wenn ein Computer von allen alles lernt und damit Geld verdient? Es ist etwas anderes, im Golden Gate Park eine einzelne Blume zu pflücken, als eine Maschine zu bauen, die automatisch alle Blumen im Park abschneidet, um sie zu verkaufen. Quantitative Veränderungen erzeugen qualitative Veränderungen in einer Tätigkeit, und auch wenn ihre Auswirkungen nicht immer schlecht sind, sollte man sie nicht ignorieren, sondern prüfen
Der Kern ist also nicht bloß der Maßstab, sondern eher, dass ein Verhalten, das für Menschen wünschenswert ist, gesellschaftlich nicht erlaubt ist, wenn Maschinen es tun
Das Gefühl von „Diebstahl“ ist hier vollständig eine Interpretation im Kopf, und nur weil jemand kopiert hat, wurde dem Original nichts weggenommen
https://en.wikipedia.org/wiki/Fallacy_of_composition
Nach dem Internet, aber vor LLMs, war das Informationsgefälle theoretisch stark reduziert, doch wegen Wahrnehmungsbarrieren konnten die meisten Menschen es nicht verstehen und nutzen. Nach LLMs fallen diese Barrieren weg, also müssen wir darüber nachdenken, wie Informationen und Wissen anders eingesetzt werden können, um Geld und Macht zu erzeugen
Es bleibt das größere Problem, dass die ursprüngliche Quelle keinen Credit auf eine Weise erhält, die vergütet wird.
Webseitenbetreiber zahlen für das Hosting ihrer Inhalte, lassen Spider kommen, die sie crawlen und für KI indizieren, bekommen mit Glück vielleicht eine Erwähnung, aber als Inhaltsanbieter so gut wie keine Gegenleistung. Es wird immer schlimmer, und man landet bei „Warum noch Webseiten besuchen, wenn alles in der KI ist?“ Am Ende muss man Crawler vielleicht blockieren und alles hinter ein Login setzen
Zumindest das Scraping von Google/Bing/Yahoo diente dazu, Links zurück zum Original bereitzustellen
Wir haben bestätigt, dass unsere Daten in Modellausgaben auftauchen, aber was soll man schon dagegen tun
Solche KI-Firmen sind fast ein widerliches Paradebeispiel für „Kosten werden vergesellschaftet, Gewinne privatisiert“
Also nicht Tor, sondern Zielort
Mir ist klar, dass das die Auffindbarkeit beeinträchtigt, aber wenn das kein Problem wäre: Wie könnte man Crawling umgehen?
Das Thema ist nicht so simpel, dass „Fair Use“ einfach 99 % des Data-Scrapings abdeckt.
Wenn das Original nicht reproduziert, sondern zum Schätzen von Wahrscheinlichkeitsverteilungen von Tokens im Pretraining verwendet wird, ist es noch vager. Mit einem LLM wird man ein Buch wohl nicht Wort für Wort originalgetreu herausbekommen
Bing Chat kopierte zum Beispiel bei dem Artikel von 2023 „The Secrets Hamas knew about Israel’s Military“ bis auf zwei Wörter die ersten 396 Wörter, und in den Gerichtsunterlagen wurden 100 Fälle gezeigt, in denen OpenAIs GPT Times-Artikel gelernt, memoriert und Wort für Wort kopiert hatte
https://www.hollywoodreporter.com/business/business-news/cou...
Es hat eine Weile gedauert, bis ich das verstanden habe, aber zitiert werden muss nicht nur die wörtliche Kopie eines Satzes, sondern die Informationsquelle
Man kann Inhalte zur Reproduktion bringen, aber das ist ein Katz-und-Maus-Spiel. Wären sie nicht darauf ausgerichtet, direkte Reproduktion zu vermeiden, würde es viel häufiger passieren. RECAP war konsistent besser als alle anderen Methoden und extrahierte zum Beispiel aus Claude-3.7 etwa 3.000 Passagen aus dem ersten „Harry Potter“-Buch, während die beste Baseline nur 75 Passagen erreichte
Fast ohne Kommentare plagiiert es die Bibliothek dann praktisch direkt aus dem Gedächtnis
Wenn aus KI auch nur etwas Gutes hervorgehen sollte, dann vielleicht dies: das Urheberrecht für immer zu ruinieren.
Niemand sollte „Ideen“ besitzen können. Lizenzgebühren für kommerzielle Nutzung sind eine andere Sache, die unterstütze ich, aber nichtkommerzielle Piraterie und nicht genehmigte Fan-Art, wie wir sie kennen, sollten zu 100 % legal sein
Anders als das jetzige System wirkt die Logik, dass man Werke für eine begrenzte Zeit auf begrenzte Weise besitzen darf, durchaus vernünftig
Wenn man Kunst schafft, sollte man Anerkennung bekommen. Kunst ist eine wichtige Art, wie Menschen sich ausdrücken
Ein vergriffenes Buch von anna's archive „herunterzuladen“ wird man nicht dürfen, aber Unternehmen werden gerne Abogebühren dafür verlangen, auf all diesen Daten zu trainieren und Zusammenfassungen daraus zu erzeugen
Ich weiß nicht, warum das überraschend sein sollte. Wir wissen alle, dass KI-Firmen riesige Datenmengen für das Training ihrer Modelle gestohlen haben — warum sollte jemand glauben, dass sie damit aufhören würden? Haben sie jemals wirklich einen Preis für massenhaften Diebstahl urheberrechtlich geschützter Daten bezahlt?
Wir dürfen diese Daten nicht stehlen oder daraus Profit ziehen, aber für sie ist es irgendwie okay. Vermutlich, weil sie die Welt verbessern und die Menschheit voranbringen
Die Leute, die Gesetze machen und durchsetzen, wollen, dass das BIP steigt. Moral und Rechte sind für sie nur eine dünne Maske, die sie leicht abwerfen, wenn sie unbequem wird
Solche Kommentare liefern weder Einsicht noch Hilfe noch Stoff zum Nachdenken. Sie helfen nur dabei, dass schlechte Situationen schlecht bleiben
„Geistiges Eigentum“, sagtest du? Das ist eine verführerische Fata Morgana.
https://www.gnu.org/philosophy/not-ipr.html
Ein Open-Weights-Modell, das das gesamte interne Repository von Oracle ohne Quellenangabe trainiert hat, wäre fair
Ich verstehe nicht ganz, was an „Ihre Texte enthalten einen Link zu meiner tatsächlichen Webseite, und auch der Linktext ist exakt gleich“ problematisch sein soll.
Solange der Linktext nicht extrem lang ist: Warum sollte jemand andere Wörter benutzen, wenn er auf deinen Text verlinkt?
.../post/{id}/{extra-text}. Dabei wirdextra-textüberhaupt nicht zur Zuordnung des Beitrags verwendet.Amazon-Links waren früher auch so aufgebaut; der Produktname hing am Ende der URL, aber selbst wenn man ihn löschte oder änderte, führte der Link immer noch zum Produkt. Vielleicht war man überrascht, dass das LLM sogar den irrelevanten Teil des Links unverändert mit ausgegeben hat
Angenommen, das Rezept für frittierte Äpfel verlinkt auf die Rangliste. Später kopiert jemand dein Rezept ohne Quellenangabe und verlinkt mit derselben Formulierung immer noch auf die Rangliste. Sie haben also deinen Text gestohlen, bekommen aber mehr Sichtbarkeit in den Google-Suchergebnissen und mehr Werbeeinnahmen. Das ist das Problem
Hier scheinen zwei Dinge verwechselt zu werden.
Erstens ist die LLM-/Transformer-Technologie wirklich erstaunlich und revolutionär. Zweitens funktionieren diese Systeme am Ende wie gigantische, effektive Datenbanken, die den Großteil menschlichen Wissens enthalten. Punkt 1 verschleiert Punkt 2. Wenn jemand einfach alle existierenden digitalen Outputs in eine SQL-Datenbank gesteckt und auf Anfrage kostenlos bereitgestellt hätte, gäbe es keinerlei Unklarheit über die Legalität. Aber Prozesse wie Destillation verdecken diese Beziehung und lassen es anders erscheinen als bloßes Nachschlagen. Und tatsächlich ist es ja auch mehr als das
Ich bin Anwalt für geistiges Eigentum und befasse mich tatsächlich mit diesem Thema.
Das ist keine Rechtsberatung, aber wenn man online Inhalte erstellt — Open-Source-Code in öffentlichen Repositories, Blogs, Podcasts, YouTube, Publikationen, selbst Hobbyblogs — ist die US-Urheberrechtsregistrierung wohl die klügste Entscheidung. Anthropic hat Autoren wegen Urheberrechtsverletzungen bei geschützten Werken 1,5 Milliarden Dollar in einem Vergleich gezahlt. Wenn die Arbeiten der HN-Community geschützt gewesen wären, könnte es für jedes LLM-Scraping massive gesetzliche Schadensersatzansprüche geben. Ich arbeite mit Hunderten Autoren und Verlagen und baue eine Koalition auf, um zu schützen und zu lizenzieren, was sie schaffen
Das ist nicht dasselbe
Wenn das nötig ist, um das Urheberrecht tatsächlich so zu haben, wie ich es erwartet habe, würde ich dafür sogar ein Skript schreiben
Ist das jetzt nicht mehr so? Warum sollte sich das plötzlich geändert haben? Wann wurde das geändert?
Ob es technisch gesehen eine Urheberrechtsverletzung ist oder nicht, ist für mich nicht das Hauptproblem.
Das größere Problem ist, dass die Fähigkeit, weltweit Inhalte auszuschlachten, in den Händen weniger Unternehmen konzentriert wird, die große Rechenzentren bauen können. Das ist ein riesiges Problem. Wenn meine Webseite, Nachrichtenseite, mein Online-Magazin oder meine kommerzielle Kunst in ein Modell eingesaugt werden und ich von den Anreizen ausgeschlossen werde, warum sollte ich dann noch etwas schaffen? Wenn es nach aktueller Rechtslage keine Urheberrechtsverletzung ist, dann brauchen wir einen neuen rechtlichen Rahmen, weil das für menschliche Kreativität und kleine Unternehmen eine absolute Tragödie ist