1 Punkte von GN⁺ 2 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • KI übernimmt Eingaben zum Training, unabhängig davon, ob die ursprünglichen Urheber zugestimmt haben, verkauft die Ergebnisse und entschädigt die ursprünglichen Urheber nicht
  • Auch die Kunden von KI-Unternehmen (und KI-Tools) verkaufen die per Prompt erzeugten Ergebnisse erneut an andere Kunden weiter und erzielen Gewinne mit Inhalten, die aus dem gesamten Internet kopiert wurden
  • Die eigenen Tutorials zum E-Commerce wurden durch eigene Recherche erstellt, doch einige Websites ließen ChatGPT einfach ein paar erfolgreiche Tutorials kopieren und veröffentlichten sie anschließend als eigene Texte
  • Die kopierten Texte rangieren in den Google-Suchergebnissen höher als die Originale
  • In den kopierten Texten blieben Links zur ursprünglichen Website mit exakt demselben Linktext erhalten; durch diese nicht entfernten Links ließ sich die Kopie nachweisen
  • Google zeigt Websites, die Originale kopieren, höher als die Originale selbst an und schafft so eine Struktur, in der unerlaubt kopierte Inhalte in der Suche belohnt werden

1 Kommentare

 
GN⁺ 2 시간 전
Hacker-News-Meinungen
  • Es gibt einen Fehlschluss, der zur Rechtfertigung solcher Dinge oft benutzt wird: „Wenn etwas im kleinen Maßstab okay oder vernachlässigbar ist, dann ist es auch im großen Maßstab okay.“
    Von einer einzelnen Webseite zu lernen und damit Geld zu verdienen, sei okay, aber warum sollte es dann ein Problem sein, wenn ein Computer von allen alles lernt und damit Geld verdient? Es ist etwas anderes, im Golden Gate Park eine einzelne Blume zu pflücken, als eine Maschine zu bauen, die automatisch alle Blumen im Park abschneidet, um sie zu verkaufen. Quantitative Veränderungen erzeugen qualitative Veränderungen in einer Tätigkeit, und auch wenn ihre Auswirkungen nicht immer schlecht sind, sollte man sie nicht ignorieren, sondern prüfen

    • In diesem Beispiel sind sowohl der kleine als auch der große Maßstab von vornherein inakzeptables Verhalten. Dagegen ist es, von anderen zu lernen, im kleinen Maßstab gesellschaftlich nicht nur akzeptiert, sondern die Grundlage von Fortschritt.
      Der Kern ist also nicht bloß der Maßstab, sondern eher, dass ein Verhalten, das für Menschen wünschenswert ist, gesellschaftlich nicht erlaubt ist, wenn Maschinen es tun
    • Im frühen Web gab es viele ähnliche Fälle. Es gab „öffentliche“ Dokumente, die jeder im Gerichtsgebäude des Bezirks einsehen konnte, aber als plötzlich jeder im ganzen Land sie finden konnte, indem er nur einen Namen im Browser eingab, änderte sich ihr Charakter
    • Blumen sind physische Dinge; wenn man sie wegnimmt, sind sie an ihrem ursprünglichen Ort verschwunden, aber wenn ein LLM etwas von einer Webseite lernt, bleibt die Webseite unverändert.
      Das Gefühl von „Diebstahl“ ist hier vollständig eine Interpretation im Kopf, und nur weil jemand kopiert hat, wurde dem Original nichts weggenommen
    • Das ist ein Kompositionsfehlschluss
      https://en.wikipedia.org/wiki/Fallacy_of_composition
    • Vor dem Internet konnten Informations- und Wissensgefälle Geld und Macht erzeugen.
      Nach dem Internet, aber vor LLMs, war das Informationsgefälle theoretisch stark reduziert, doch wegen Wahrnehmungsbarrieren konnten die meisten Menschen es nicht verstehen und nutzen. Nach LLMs fallen diese Barrieren weg, also müssen wir darüber nachdenken, wie Informationen und Wissen anders eingesetzt werden können, um Geld und Macht zu erzeugen
  • Es bleibt das größere Problem, dass die ursprüngliche Quelle keinen Credit auf eine Weise erhält, die vergütet wird.
    Webseitenbetreiber zahlen für das Hosting ihrer Inhalte, lassen Spider kommen, die sie crawlen und für KI indizieren, bekommen mit Glück vielleicht eine Erwähnung, aber als Inhaltsanbieter so gut wie keine Gegenleistung. Es wird immer schlimmer, und man landet bei „Warum noch Webseiten besuchen, wenn alles in der KI ist?“ Am Ende muss man Crawler vielleicht blockieren und alles hinter ein Login setzen

    • Noch schlimmer ist, dass kontinuierliches AI-Scraping für Inhaltsanbieter nur zusätzliche Kosten erzeugt und keinerlei Gegenleistung bringt.
      Zumindest das Scraping von Google/Bing/Yahoo diente dazu, Links zurück zum Original bereitzustellen
    • Vor ungefähr einem Jahr hat OpenAI die Firma, bei der ich arbeite, in einem DDoS-artigen Ausmaß gecrawlt. Wir hatten es per robots.txt blockiert und hastig noch reCAPTCHA eingebaut, aber das half nichts.
      Wir haben bestätigt, dass unsere Daten in Modellausgaben auftauchen, aber was soll man schon dagegen tun
    • Es kostet tatsächlich Geld und Zeit. Ein Freund, der Uni-Systemadministrator ist, sagte, er müsse sich ständig darum kümmern, dass AI-Crawler Server wie bei einem DDoS angreifen, und Anthropic gehöre zu den schlimmsten Fällen.
      Solche KI-Firmen sind fast ein widerliches Paradebeispiel für „Kosten werden vergesellschaftet, Gewinne privatisiert“
    • Bei Google wirkt das fast wie das eigentliche Ziel. Sie bewegen sich nicht in Richtung Wegweiser, der in die richtige Richtung zeigt, sondern in Richtung eines Orakels, das alle Antworten hat.
      Also nicht Tor, sondern Zielort
    • Ich frage mich, ob es eine Möglichkeit gibt, Webseiten so zu hosten, dass sie von Suchmaschinen nicht gefunden und damit auch nicht gecrawlt werden können.
      Mir ist klar, dass das die Auffindbarkeit beeinträchtigt, aber wenn das kein Problem wäre: Wie könnte man Crawling umgehen?
  • Das Thema ist nicht so simpel, dass „Fair Use“ einfach 99 % des Data-Scrapings abdeckt.
    Wenn das Original nicht reproduziert, sondern zum Schätzen von Wahrscheinlichkeitsverteilungen von Tokens im Pretraining verwendet wird, ist es noch vager. Mit einem LLM wird man ein Buch wohl nicht Wort für Wort originalgetreu herausbekommen

    • Die Behauptung, man könne „mit einem LLM ein Buch nicht Wort für Wort herausbekommen“, widerspricht fast frontal einem Kernvorwurf in der Klage der New York Times gegen OpenAI.
      Bing Chat kopierte zum Beispiel bei dem Artikel von 2023 „The Secrets Hamas knew about Israel’s Military“ bis auf zwei Wörter die ersten 396 Wörter, und in den Gerichtsunterlagen wurden 100 Fälle gezeigt, in denen OpenAIs GPT Times-Artikel gelernt, memoriert und Wort für Wort kopiert hatte
      https://www.hollywoodreporter.com/business/business-news/cou...
    • In der Schule war „Ich habe es in meinen eigenen Worten geschrieben“ nie eine Ausrede dafür, keine Quelle angeben zu müssen.
      Es hat eine Weile gedauert, bis ich das verstanden habe, aber zitiert werden muss nicht nur die wörtliche Kopie eines Satzes, sondern die Informationsquelle
    • Dasselbe könnte man auch über MP3-Encoder sagen, aber ich glaube nicht, dass das einen Richter überzeugen würde
    • https://arxiv.org/html/2510.25941v1
      Man kann Inhalte zur Reproduktion bringen, aber das ist ein Katz-und-Maus-Spiel. Wären sie nicht darauf ausgerichtet, direkte Reproduktion zu vermeiden, würde es viel häufiger passieren. RECAP war konsistent besser als alle anderen Methoden und extrahierte zum Beispiel aus Claude-3.7 etwa 3.000 Passagen aus dem ersten „Harry Potter“-Buch, während die beste Baseline nur 75 Passagen erreichte
    • Man muss Claude nur prompten, einen Drop-in-Ersatz für eine bestehende Bibliothek zu bauen und die Funktionalität mit der Testsuite dieser Bibliothek zu verifizieren.
      Fast ohne Kommentare plagiiert es die Bibliothek dann praktisch direkt aus dem Gedächtnis
  • Wenn aus KI auch nur etwas Gutes hervorgehen sollte, dann vielleicht dies: das Urheberrecht für immer zu ruinieren.
    Niemand sollte „Ideen“ besitzen können. Lizenzgebühren für kommerzielle Nutzung sind eine andere Sache, die unterstütze ich, aber nichtkommerzielle Piraterie und nicht genehmigte Fan-Art, wie wir sie kennen, sollten zu 100 % legal sein

    • Dann sollte man das Urheberrecht für alle abschaffen. Stattdessen sitzen wir jetzt in einem noch schlechteren System, in dem ultragroße Konzerne fröhlich das Eigentum aller plagiieren, während man Leuten, die einen Film illegal kopiert haben, ein SWAT-Team schickt, um sie zu töten
    • Das Urheberrecht hat von Anfang an nie „Ideen“ geschützt und tut das auch heute nicht. Es schützt die Ausdrucksform
    • Etwas wie ein Lied ist zum Beispiel viel mehr als eine Idee. Dazu kommen Arrangement, Produktion, Performance und andere Arbeit.
      Anders als das jetzige System wirkt die Logik, dass man Werke für eine begrenzte Zeit auf begrenzte Weise besitzen darf, durchaus vernünftig
    • Das größte Problem ist nicht kaputte Kommerzialisierung, sondern kaputte Zuschreibung der Urheberschaft.
      Wenn man Kunst schafft, sollte man Anerkennung bekommen. Kunst ist eine wichtige Art, wie Menschen sich ausdrücken
    • Das Urheberrecht wird nicht zerbrechen, sondern sich wie immer selektiv nach der Schwerkraft des Reichtums verbiegen.
      Ein vergriffenes Buch von anna's archive „herunterzuladen“ wird man nicht dürfen, aber Unternehmen werden gerne Abogebühren dafür verlangen, auf all diesen Daten zu trainieren und Zusammenfassungen daraus zu erzeugen
  • Ich weiß nicht, warum das überraschend sein sollte. Wir wissen alle, dass KI-Firmen riesige Datenmengen für das Training ihrer Modelle gestohlen haben — warum sollte jemand glauben, dass sie damit aufhören würden? Haben sie jemals wirklich einen Preis für massenhaften Diebstahl urheberrechtlich geschützter Daten bezahlt?
    Wir dürfen diese Daten nicht stehlen oder daraus Profit ziehen, aber für sie ist es irgendwie okay. Vermutlich, weil sie die Welt verbessern und die Menschheit voranbringen

    • Diese Daten wurden nicht gestohlen. Sie sind noch da
    • Ein Grund aufzuhören ist, dass die Quellen inzwischen durch KI kontaminiert sind. Zumindest ist das ein Grund, das Scraping zu stoppen
    • Der Grund ist simpel. Wenn Microsoft dein Werk stiehlt, steigt das BIP, und wenn du Microsofts Werk stiehlst, sinkt das BIP.
      Die Leute, die Gesetze machen und durchsetzen, wollen, dass das BIP steigt. Moral und Rechte sind für sie nur eine dünne Maske, die sie leicht abwerfen, wenn sie unbequem wird
    • Der Grund ist Vetternwirtschaftskapitalismus. Ich wünschte, ich wüsste die Lösung
    • Jedes Mal, wenn eine schlechte oder ungerechte Situation auftaucht, kommentiert irgendein zynischer Nihilist mit „Warum überrascht dich das?“, und ich habe das wirklich satt.
      Solche Kommentare liefern weder Einsicht noch Hilfe noch Stoff zum Nachdenken. Sie helfen nur dabei, dass schlechte Situationen schlecht bleiben
  • „Geistiges Eigentum“, sagtest du? Das ist eine verführerische Fata Morgana.
    https://www.gnu.org/philosophy/not-ipr.html

    • Solange diese Fata Morgana für Oracle, Microsoft, Meta und Google genauso gilt wie für den lokal überarbeiteten unbezahlt arbeitenden Open-Source-Entwickler, ist das in Ordnung.
      Ein Open-Weights-Modell, das das gesamte interne Repository von Oracle ohne Quellenangabe trainiert hat, wäre fair
  • Ich verstehe nicht ganz, was an „Ihre Texte enthalten einen Link zu meiner tatsächlichen Webseite, und auch der Linktext ist exakt gleich“ problematisch sein soll.
    Solange der Linktext nicht extrem lang ist: Warum sollte jemand andere Wörter benutzen, wenn er auf deinen Text verlinkt?

    • Genau. Das ist eine Quellenangabe mit Link
    • Es gibt Links im Format .../post/{id}/{extra-text}. Dabei wird extra-text überhaupt nicht zur Zuordnung des Beitrags verwendet.
      Amazon-Links waren früher auch so aufgebaut; der Produktname hing am Ende der URL, aber selbst wenn man ihn löschte oder änderte, führte der Link immer noch zum Produkt. Vielleicht war man überrascht, dass das LLM sogar den irrelevanten Teil des Links unverändert mit ausgegeben hat
    • Wahrscheinlich war ein Abschnittstitel mit der eigenen Webseite verlinkt oder etwas Ähnliches. Es ist kein besonders gut geschriebener Wuttext
    • Es scheint zu bedeuten, dass jemand die URL der eigenen Webseite als Tutorial-Beispiel verwendet und andere Tutorials das einfach unverändert kopiert haben
    • Stell dir vor, es gibt zwei Webseiten. Eine ist ein Rezept für frittierte Äpfel, die andere eine Rangliste von Apfelsorten nach Geschmack.
      Angenommen, das Rezept für frittierte Äpfel verlinkt auf die Rangliste. Später kopiert jemand dein Rezept ohne Quellenangabe und verlinkt mit derselben Formulierung immer noch auf die Rangliste. Sie haben also deinen Text gestohlen, bekommen aber mehr Sichtbarkeit in den Google-Suchergebnissen und mehr Werbeeinnahmen. Das ist das Problem
  • Hier scheinen zwei Dinge verwechselt zu werden.
    Erstens ist die LLM-/Transformer-Technologie wirklich erstaunlich und revolutionär. Zweitens funktionieren diese Systeme am Ende wie gigantische, effektive Datenbanken, die den Großteil menschlichen Wissens enthalten. Punkt 1 verschleiert Punkt 2. Wenn jemand einfach alle existierenden digitalen Outputs in eine SQL-Datenbank gesteckt und auf Anfrage kostenlos bereitgestellt hätte, gäbe es keinerlei Unklarheit über die Legalität. Aber Prozesse wie Destillation verdecken diese Beziehung und lassen es anders erscheinen als bloßes Nachschlagen. Und tatsächlich ist es ja auch mehr als das

  • Ich bin Anwalt für geistiges Eigentum und befasse mich tatsächlich mit diesem Thema.
    Das ist keine Rechtsberatung, aber wenn man online Inhalte erstellt — Open-Source-Code in öffentlichen Repositories, Blogs, Podcasts, YouTube, Publikationen, selbst Hobbyblogs — ist die US-Urheberrechtsregistrierung wohl die klügste Entscheidung. Anthropic hat Autoren wegen Urheberrechtsverletzungen bei geschützten Werken 1,5 Milliarden Dollar in einem Vergleich gezahlt. Wenn die Arbeiten der HN-Community geschützt gewesen wären, könnte es für jedes LLM-Scraping massive gesetzliche Schadensersatzansprüche geben. Ich arbeite mit Hunderten Autoren und Verlagen und baue eine Koalition auf, um zu schützen und zu lizenzieren, was sie schaffen

    • Anthropic hat nicht verloren, weil es urheberrechtlich geschützte Werke gescrapet, also gelesen hat. Verloren hat es, weil es urheberrechtlich geschützte Werke per Torrent direkt verbreitet hat.
      Das ist nicht dasselbe
    • Ich habe immer gehört, dass Urheberrecht automatisch entsteht. Kostet die Registrierung Geld? Muss man das für jeden Blogpost machen? Für jeden gist?
      Wenn das nötig ist, um das Urheberrecht tatsächlich so zu haben, wie ich es erwartet habe, würde ich dafür sogar ein Skript schreiben
    • Entsteht das Urheberrecht nicht schon allein dadurch, dass man ein Originalwerk online veröffentlicht?
    • Ich verstehe nicht, was mit „Urheberrecht registrieren“ gemeint ist. In allen Erklärungen, die ich bisher gehört habe, hieß es, man besitze das Urheberrecht an seinem Werk automatisch, und solange man es nicht per Lizenz aufgebe, gelte standardmäßig „alle Rechte vorbehalten“.
      Ist das jetzt nicht mehr so? Warum sollte sich das plötzlich geändert haben? Wann wurde das geändert?
    • Niemand wird das tun, oder zumindest nicht genug Leute — was ist also Plan B?
  • Ob es technisch gesehen eine Urheberrechtsverletzung ist oder nicht, ist für mich nicht das Hauptproblem.
    Das größere Problem ist, dass die Fähigkeit, weltweit Inhalte auszuschlachten, in den Händen weniger Unternehmen konzentriert wird, die große Rechenzentren bauen können. Das ist ein riesiges Problem. Wenn meine Webseite, Nachrichtenseite, mein Online-Magazin oder meine kommerzielle Kunst in ein Modell eingesaugt werden und ich von den Anreizen ausgeschlossen werde, warum sollte ich dann noch etwas schaffen? Wenn es nach aktueller Rechtslage keine Urheberrechtsverletzung ist, dann brauchen wir einen neuen rechtlichen Rahmen, weil das für menschliche Kreativität und kleine Unternehmen eine absolute Tragödie ist

    • Bei Google haben wir genau denselben Prozess durchlaufen. Nachdem Google zum einzigen Weg wurde, über den Menschen Webseiten fanden, wurde argumentiert, Google schöpfe lediglich unfaire ökonomische Renten ab