Auf generative KI kommt größerer Copyright-Druck zu

(garymarcus.substack.com)

2 Punkte von GN⁺ 2023-12-31 | 1 Kommentare | Auf WhatsApp teilen

Nach der Klage der New York Times gegen OpenAI rückt die Frage stärker in den Mittelpunkt, wie weit generative KI in der Trainings- und Ausgabephase für Urheberrechtsverletzungen haften muss
Kern der Klage ist, dass Chatbots Text nahezu unverändert reproduzieren können; Experimente von Marcus und Reid Southen zeigen, dass auch DALL-E ähnliche Wiederholungen bei Bildern erzeugen kann
Selbst mit Schutzmaßnahmen wie dem Blockieren von Eigennamen können Prompts, in denen Nutzer weder Figuren- noch Filmtitel direkt nennen, Ergebnisse hervorbringen, die SpongeBob SquarePants, RoboCop oder Videospielfiguren ähneln
Aktuelle Systeme informieren Nutzer nicht über Quellenangaben und mögliche Rechtsverletzungen bei Trainingsquellen und generierten Inhalten, sodass Nutzer unwissentlich verletzende Ergebnisse erstellen können
Marcus geht davon aus, dass die Debatte über Rechtsverletzungen weitergeht, bis neue Architekturen mit Quellenverfolgung entstehen, und sieht die Klage der New York Times möglicherweise als Auftakt zu weiteren Klagen

Klage der New York Times und Experimente zur Bildwiederholung

Zum Zeitpunkt der Klage der New York Times gegen OpenAI führten Gary Marcus und der Konzeptkünstler der Filmbranche Reid Southen gemeinsam Experimente durch
- Southen wird als jemand vorgestellt, der unter anderem Erfahrung mit Marvel, DC, Matrix Resurrections und Hunger Games hat
- Der vollständige Bericht soll nächste Woche veröffentlicht werden; am 3. Januar soll IEEE Spectrum zusätzlich darüber berichten
Kern der Klage ist, dass OpenAIs Chatbot Text nahezu wortgleich mit dem Original reproduzieren kann
In den Experimenten von Marcus und Southen war es demnach auch bei Nutzung von OpenAIs Bildsoftware über Bing möglich, Bilder identisch oder nahezu identisch zu wiederholen

Das Blackbox-Problem unbekannter Quellen

Das Kernproblem generativer KI sieht Marcus in einer Struktur, bei der Trainingsquellen und Quellen der Generierungen für Nutzer nicht sichtbar sind
- Systeme wie DALL-E und ChatGPT werden mit urheberrechtlich geschütztem Material trainiert
- OpenAI legt nicht transparent offen, womit trainiert wurde
- Generative-KI-Systeme können Material erzeugen, das Urheberrechte verletzen kann
- Das System informiert Nutzer nicht, wenn ein solches Ergebnis entsteht
- Auch Quelleninformationen zu generierten Bildern werden nicht bereitgestellt
- Nutzer wissen möglicherweise nicht, ob ein von ihnen erstelltes Bild eine Rechtsverletzung darstellt
Aktuelle Systeme wie DALL-E und ChatGPT ähneln eher einer Blackbox, und mit ihrer derzeitigen Struktur sei eine Zuordnung zu Ausgangsmaterialien schwierig
- Einige Unternehmen forschten zwar daran, aber eine überzeugende Lösung sei ihm bislang nicht bekannt
- Bis neue Architekturen entstehen, die Quellen generierter Texte oder Bilder zuverlässig verfolgen, könnten Rechtsverletzungen weiter auftreten
- Ein gutes System müsste Nutzern eine Quellenliste bereitstellen, doch aktuelle Systeme tun das offenbar nicht

Ausweitung von Klagen und Risiko für Microsoft

Die Klage der New York Times dürfte vermutlich der erste von mehreren Fällen sein
- In einer von Marcus auf X durchgeführten Umfrage erwartete eine Mehrheit einen Vergleich
- Zur Höhe eines Vergleichs rechneten viele Antwortende mit mehr als 100 Millionen US-Dollar, 20 % erwarteten 1 Milliarde US-Dollar
- Wenn sich dies auf Filmstudios, Videospielunternehmen, andere Zeitungen und Ähnliches ausweitet, könnten die Summen steigen
Da die Beispiele über DALL-E in Bing entstanden, sieht Marcus auch Microsoft einem Haftungsrisiko ausgesetzt

1 Kommentare

GN⁺ 2023-12-31

Hacker-News-Meinungen

Alle akzeptieren viel zu bereitwillig das unternehmerische Narrativ, dass jemand so etwas tatsächlich besitzen könne.
Wem gehören denn wirklich die Geschichten von Schneewittchen und Aschenputtel? Diese Geschichten stammen nicht von Disney, sondern sind Teil von Volksmärchen, die über Generationen weitergegeben wurden, und Disneys Erfolg basiert zum Teil darauf, bestehende Erzählungen zu adaptieren, die Gemeinschaften über Jahrhunderte geteilt und verändert haben.
In dieser Debatte sollte es nicht nur um technische Details künstlicher Intelligenz oder die juristische Logik des Urheberrechts gehen, sondern darum, die tiefen Wurzeln unserer gemeinsamen Kultur zu verstehen.
Kultur ist ihrem Wesen nach ein gemeinsames Gut und entwickelt und erweitert sich durch kollektive Geschichten und Neuinterpretationen.
Die Debatte über generative künstliche Intelligenz und Urheberrechtsverletzungen scheint diese Grundlage kultureller Evolution zu verfehlen. Die Algorithmen mögen neu sein, aber Geschichten neu zu imaginieren und wiederzuverwenden ist so alt wie die Menschheit.
Disney hat das „Haus der Maus“ auf bestehender Kultur und bestehenden Geschichten errichtet, und nun Kulturwerkzeuge einschränken zu wollen, um sie an ein altes, seltsames Urheberrecht anzupassen, halte ich wirklich für absurd.
- Wenn man dieses Argument vorbringen will, sollte man Beispiele wählen, die nicht bereits Public Domain sind. Disney besitzt nur seine eigene Interpretation und kann allenfalls gewisse unscharfe abgeleitete Bereiche geltend machen, wenn es ein Gericht überzeugt, aber es besitzt nicht die gesamten Geschichten von Schneewittchen und Aschenputtel.
  In den Artikelbildern wurden ziemlich aktuelle Dinge verwendet, und es besteht nicht einmal die Frage, ob es Mario oder Coca-Cola ist oder nicht. Hätten Nintendo und Coca-Cola eine gemeinsame Promotion gemacht, könnte man die Bilder genau so, wie sie sind, für echt halten.
  Wenn man das allgemeine Konzept eines gedrungenen Klempners in Kleidung, die wie Mario aussieht, beanspruchen würde, wäre das eine andere Frage, aber das dort sind einfach Mario und Luigi. Es ist Robocop und C-3PO. Daran ist überhaupt nichts subtil. Wenn man solche Marken durch AI-Washing ausradieren kann, kann man alles durch AI-Washing ausradieren.
- In der Realität leben wir alle unter einem Rechtssystem, das wir nicht selbst entworfen haben und von dem bekannt ist, dass es unvollkommen ist. Man kann Reformen fordern, aber die Hersteller von LLMs werden nach dem aktuell geltenden, verabschiedeten Recht beurteilt.
  Das Neue liegt in LLMs und ihrer Technik, nicht darin, unter dem edlen Konzept kultureller Offenheit das Urheberrecht insgesamt neu zu denken.
  Daher ist das nicht bloß ein Unternehmensnarrativ, sondern, ob richtig oder falsch, das Recht, auf dem dieses Narrativ beruht. Unternehmen mögen eine große Rolle bei der Ausgestaltung des Rechts gespielt haben, aber das Urheberrecht nützt auch Einzelpersonen. Es manipuliert nicht einfach als Propaganda oder Unternehmensnarrativ eine geteilte Realität, sondern wird von Richtern vermittelt und von Menschen mit Waffen und Gefängnissen durchgesetzt.
  Da es sich um eine Rechtsfrage handelt, muss man sich zwingend mit den technischen Details des Rechts befassen. Wenn man das beiseiteschiebt und sagt, es solle nur um soziale Narrative gehen, ersetzt man materielle Folgen und Realität durch Fantasie. Man muss auch darüber sprechen, inwiefern Urheberrecht und geistiges Eigentum schöpferisches Arbeiten unterdrücken, aber zugleich kann man nicht ignorieren, was tatsächlich geschieht.
- Diese Antwort ist viel zu weit von der Realität entfernt. Das Urheberrecht ist sehr eindeutig. Das Unternehmensnarrativ ist hier vielmehr die Behauptung, „KI“ sei irgendwie neu und anders, weshalb bestehendes Recht nicht gelte; das ergibt keinen Sinn.
- Public Domain und gemeinsame Güter sind ebenfalls Teil des Urheberrechts, daher sollte man nicht so tun, als seien sie vergessene Konzepte, die wieder in den Diskurs zurückgeholt werden müssten.
  Allerdings wird Georgismus nicht ausreichend berücksichtigt.
  Rechtliche Implikationen sind menschliche Implikationen und genauso Teil der Kultur wie andere Dinge. Es geht darum, was fair ist und wie die Anerkennung und Verteilung von Vergütung für Anstrengung erfolgt.
  Solche Formalisierungen mögen in Kulturen, die nicht auf Marktwirtschaft ausgerichtet sind, weniger wichtig sein, und Formulierungen wie „reiches Geflecht von Volksmärchen“ vermitteln das Gefühl, man wolle in eine solche Welt zurückkehren; doch die Gesellschaft, die darüber nachdenkt, wie sie mit künstlicher Intelligenz umgehen soll, ist keine solche Gesellschaft.
  Die Vorstellung, Urheberrecht werde durch neue Kopierfähigkeiten ungültig oder überholt, ist buchstäblich genau verkehrt herum gedacht. Das Urheberrecht gewann seine Überzeugungskraft gerade durch neue Kopierfähigkeiten.
  Die konkrete Fähigkeit damals war der industrialisierte Druck, und Menschen, die viel klüger erscheinen als der durchschnittliche Softwareexperte, verstanden, dass diese Fähigkeit falsch ausgerichtete Anreize zwischen der Seite mit der neuen Kopierfähigkeit und der Seite schuf, die die Werke geschaffen hatte, auf denen ihr Wert beruhte. Der Kern des Urheberrechts-Deals besteht darin, diese Anreize in Einklang zu bringen.
  Neue Kopiertechnologien können die Details dessen verändern, was verboten, eingeschränkt oder erlaubt wird und welche Standards sowie Durchsetzungsbefugnisse und -grenzen gelten. Aber sie ändern nicht die Weisheit dieses Deals selbst. Um sie zu ändern, bräuchte es eine bessere Art, die Produktionskapazitäten der Gesellschaft zu organisieren und zu vergüten.
- Urheberrecht beruhte nie auf einer moralischen Position, sondern wurde immer durch die Lobby-Macht verschiedener Gruppen bestimmt.
  Trotzdem klingt die Idee, das Urheberrecht abzuschaffen, damit Unternehmen für generative künstliche Intelligenz mehr Geld verdienen, völlig seltsam
Für mich ist die Frage falsch
Alle wussten, dass diese Systeme mit urheberrechtlich geschütztem Material trainiert wurden und erschreckend ähnliche Ausgaben erzeugen können
Aber es ist bereits in großem Maßstab passiert, und die großen Konzerne sind voll eingestiegen. Die ausgedrückte Zahnpasta lässt sich nicht wieder in die Tube zurückdrücken
Das ist ähnlich wie damals, als große Tech-Unternehmen ihre Geschäfte auf aggressiver Erfassung von Nutzerdaten aufgebaut haben. Ob das richtig, ethisch oder überhaupt legal ist, ist in dieser Phase fast schon eine akademische Debatte. Sie haben es einfach gemacht und es faktisch ohne angemessenen informed consent der Gesellschaft durchgezogen
Die richtige Frage hier lautet: „Was tun wir jetzt?“ Wie bei Tracking-Technologien wird die Antwort vermutlich eher „nicht viel“ sein
- Ich stimme nicht zu, dass „die ausgedrückte Zahnpasta nicht wieder in die Tube zurück kann“. So etwas gab es schon früher
  Bei Technologien wie billigen Musikaufnahmen und -produktion war es genauso. Man kann einen Künstler einmal aufnehmen und Tonträger massenhaft produzieren, aber deshalb glaubt man nicht, man könne Taylor Swift einmal aufnehmen und dann ohne Bezahlung unbegrenzt Kopien anfertigen
  Es lohnt sich, über den Musikerstreik von 1942 zu lesen: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
- Das zeigt mangelnde Geschichtskenntnis
  Das ist schon bei Napster passiert, dann bei Apple Music und jetzt bei Streaming-Diensten
  Statt dass es weiterhin weitverbreitetes Filesharing in der breiten Öffentlichkeit gibt, haben wir heute Geräte, die uns nicht gehören, und Streaming-Abos
  Apple hat nicht einfach sämtliche Musik auf den iPod kopiert und verkauft, sondern zehn Jahre Vertragsverhandlungen geführt und viel Geld ausgegeben, um Content-Rechte zu bekommen
  Ich will damit nicht sagen, was richtig oder falsch ist, sondern dass diese Aussage solche Kämpfe kaum versteht
- Das klingt nach einer ziemlich eloquenten Version von „es passiert schon, also geben wir auf“. Das wird bei Problemlösung und Handeln sicher hervorragend funktionieren
- Im Grunde wird es als vollendete Tatsache dargestellt. Wie bei vielen Innovationen im Tech-Bereich: Das Gesetz ist dumm, also bricht man es und erlangt Marktmacht
  Das erinnert mich daran, wie Uber und AirBnB in den meisten Großstädten illegal waren, am Ende aber doch Marktmacht erlangt haben
  Ich finde das eher gut. An so etwas wie „geistiges Eigentum“ habe ich nie geglaubt. Patente, Urheberrecht, das ganze Bündel imaginärer „Rechte“ sollte abgeschafft werden
  Mehr als die Hälfte der Welt, also der globale Süden, erkennt solche Rechte ohnehin nicht an, und inzwischen wird es auch zunehmend schwieriger, sie ohne harte rechtliche Überdurchsetzung und monopolistische Zentralisierung durchzusetzen
- Man kann sie zwingen, Modelle zu vernichten oder ohne urheberrechtlich geschütztes Material neu zu trainieren, für das sie keine Lizenz haben oder auch jetzt keine bekommen haben
  Das sind Unternehmen im Milliarden- oder Billionen-Dollar-Bereich. So sehr Aktionäre und Top-Management das auch hassen mögen: Sie haben hier die Mittel, als verantwortungsvolle Mitglieder der Gesellschaft zu handeln
In der EU sollte das kein Problem sein. Artikel 3 und 4 der Richtlinie „Copyright in the Digital Single Market“ regeln das bereits
Laut einer Zusammenfassung von Wolters Kluwer dürfen alle anderen Akteure, einschließlich kommerzieller Entwickler von maschinellem Lernen, rechtmäßig zugängliche Werke nur dann nutzen, wenn die Rechteinhaber die Nutzung für Text- und Data-Mining nicht ausdrücklich vorbehalten haben
Soweit ich weiß, wird über etwas wie eine robot.txt für „nicht zum Training verwenden“ diskutiert. Wahrscheinlich müssen bestimmte Schutzmaßnahmen umgesetzt werden, und Endnutzer müssen bei der Nutzung der generierten Inhalte vorsichtig sein
Quelle Kluwer: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
EU-Rechtstext: https://eur-lex.europa.eu/eli/dir/2019/790/oj
- Es wirkt seltsam, dass sich die EU nicht darauf einigen konnte, das Do Not Track-Flag von Webbrowsern rechtlich verbindlich zu machen, große Content-Anbieter aber auf ihren Websites ein rechtlich verbindliches Flag einrichten können sollen, um Data Scraping zu vermeiden
- Das wirkt wie eine seltsame, vielleicht hoffnungsvolle Auslegung. Gibt Artikel 4 nicht allen, einschließlich kommerzieller Entwickler von maschinellem Lernen, eine Ausnahme für Zwecke des Text- und Data-Minings?
  https://eur-lex.europa.eu/eli/dir/2019/790/oj
Die Verantwortung dafür, sicherzustellen, dass keine Urheberrechtsverletzung vorliegt, liegt bei der Person, die das Werk veröffentlicht
Es macht keinen Unterschied, ob man es selbst gezeichnet hat, einen angehenden Maler ohne juristische Ausbildung damit beauftragt hat, ein Foto gemacht hat oder mit künstlicher Intelligenz ein Bild erzeugt hat
Warum sollte man annehmen, dass ChatGPT oder ein anderes Tool keine bestehenden urheberrechtlich geschützten Inhalte erzeugt?
Die naive Annahme, dass etwas original sein müsse, weil es „generiert“ wurde, kann ich nachvollziehen. Aber sobald man „ChatGPT“ durch „Junior Artist“ ersetzt, bricht diese Annahme zusammen
Nehmen wir an, man bittet darum, einen Droiden aus einem Science-Fiction-Film zu zeichnen, und sagt sonst nichts. Man erwähnt kein Urheberrecht und sagt auch nicht, dass es originell sein soll. Was würde man dann erwarten, dass gezeichnet wird?
- OpenAI verkauft Zugang zu GPT-Modellen, und diese Modelle geben urheberrechtlich geschütztes Material aus, das ich konsumieren soll. Ist das nicht genauso eine Verletzung?
- Dann wird generative künstliche Intelligenz praktisch unbenutzbar. Man kann nicht wissen, ob die Ausgabe ein Plagiat ist oder nicht, also wird man sie immer anzweifeln und nie verwenden
- Dieses Argument ergibt keinen Sinn
  Der hypothetische Junior Artist würde mindestens genauso viel, vielleicht sogar mehr Verantwortung tragen
Überraschend viele Antworten scheinen den Kern dieses Artikels und der NYT-Klage überhaupt nicht zu verstehen. ChatGPT konnte erhebliche Teile von NYT-Artikeln in einer Länge von Hunderten bis Tausenden Wörtern vollständig im Originalwortlaut wiedergeben und öffentlich zugänglich machen.
Das ist kein abgeleitetes Werk. Diese Schwelle ist längst weit überschritten. Die NYT hat einen sehr starken Fall, und wer über die Vor- und Nachteile des Urheberrechts diskutiert, geht am Kern vorbei.
Dieses eine Verfahren wird das Urheberrecht nicht im Alleingang umstürzen. OpenAI kann im Grunde nur vorbringen: „Das ist neu, und wie hätten wir wissen sollen, dass es dazu kommt?“ Wenn dem so ist, sind die derzeit trainierten Modelle in einer sehr schwierigen Lage.
Außerdem glaube ich nicht, dass die NYT sich vergleichen wird. Die Implikationen sind zu groß, und wenn sie sich mit OpenAI einigt, wird es bei allen anderen Modellen ähnliche Fälle geben. Jedes andere Medium, das digitale Inhalte veröffentlicht, hätte einen ähnlich stichhaltigen Fall.
Das ist ein Wendepunkt für generative KI, und es wirkt sehr wahrscheinlich, dass sie deutlich teurer oder deutlich stärker eingeschränkt wird, als wir zunächst gedacht hatten.
Als Nebenwirkung rechne ich mit mehr Piratenmodellen. Es könnten Modelle entstehen, die Legalität vollständig ignorieren, verteilt trainiert werden und deren Gewichte nicht von Unternehmen, sondern von Kollektiven verbreitet werden – etwa Torrent-Modelle.
Es ist durchaus möglich, dass solche Modelle den offiziellen „braven“ Modellen in der Leistung voraus sind. Das dürfte sich in den nächsten Jahren interessant entwickeln.
- OpenAI könnte bei diesem Problem Google/YouTube nahezu kopieren und ein System wie Content ID anbieten.
  Konkret wäre die Argumentation, dass ChatGPT urheberrechtlich geschützte Werke grundsätzlich nicht reproduziert, sondern sie auf Anfrage oder durch Handlungen von Dritt-Nutzern reproduziert, ähnlich wie YouTube von Nutzern hochgeladene Videos bereitstellt.
  OpenAIs Absicht war keine Urheberrechtsverletzung, und tatsächlich glaubten viele oder die meisten Forschenden, dass die Modelle nicht so stark overfittet seien, dass sie erhebliche Teile beliebiger geschützter Werke wiedergeben könnten.
- Ich verstehe genau, was die NYT in der Hand hat. Es ist ein sehr starker Fall. Aber ich denke, dieser Fall sollte das Urheberrecht erschüttern. Das Urheberrecht ist stark kaputt und das schon seit Langem.
  Im Kern bedeutet Urheberrecht ohne einen Großkonzern im Rücken gar nichts, und mit einem Unternehmen im Rücken kann etwas für immer weggeschlossen werden, unabhängig von den Grenzen, die es beim Urheberrecht eigentlich geben sollte.
  Die NYT verliert nichts dadurch, dass OpenAI alte Nachrichten im Originalwortlaut wiedergeben kann.
  Wenn die NYT gewinnt, verlieren wir viel. Es ist Zeit, das Urheberrecht neu zu betrachten. Das können wir tatsächlich tun, und es ist ziemlich veraltet, also braucht es ein Update.
- Bei DALLE, Midjourney und Stable Diffusion ist so etwas ebenfalls passiert.
  Stable Diffusion übertrifft andere proprietäre Modelle, wenn man Dinge wie Control Net und LoRA maximal ausnutzt.
Es mag etwas idealistisch sein, aber ich habe immer geglaubt, dass der zentrale Zweck von Kunst und Verlagswesen nicht nur darin bestehen sollte, viel Geld zu verdienen, sondern Kultur und Gesellschaft zu beeinflussen.
Deshalb brauchen Originalwerke Schutz, sollten aber sehr viel schneller in die Public Domain übergehen, um Kreativität und Inspiration zu fördern. Die Übergangsfrist sollte man eher in Jahren als in Jahrzehnten denken.
- Die Behauptung, der zentrale Zweck von Kunst sei gesellschaftlicher Einfluss, wirkt wie eine dieser heute in den Medien häufig wiederholten Floskeln; ich stimme dem überhaupt nicht zu.
  Der Hauptzweck von Kunst ist es, bei Individuen Emotionen auszulösen. Die Vorstellung, Kunst müsse Lektionen erteilen, ist vermutlich ein Grund dafür, warum es heute so viel unverhohlen „aktivistische“ Fiktion gibt.
- Was sollen Künstler dann zu Abend essen?
- Warum sollte nur Kunst solchen Regeln unterliegen und nicht alles andere?
Diese Dinge scheinen nicht so schwer zu beheben zu sein. Die meisten Beispiele sind keine allgemeinen Beschreibungen, sondern Kurzformen für bekannte Objekte
„Videospiel-Klempner“ ist praktisch ein Synonym für „Mario“, und jeder, der die Figur auch nur ein wenig kennt, weiß das
Ebenso: Wie schwer kann es sein, mit einem Beschreibungstool Bilder wie Mario beschreiben zu lassen [1] und solche Ergebnisse dann bei Leuten zu entfernen, die „Videospiel-Klempner“ eingeben?
1. Der describe-Befehl von Midjourney kann Bilder beschreiben. Andere KI-Tools dürften ähnliche Funktionen haben: https://docs.midjourney.com/docs/describe
- Der Ansatz, das zu beheben, wirkt ziemlich dystopisch. Man stelle sich vor, Photoshop prüft hochgeladene Bilder darauf, ob sie urheberrechtlich geschütztes Material sind, und verweigert die Bearbeitung, wenn es entscheidet, dass urheberrechtlich geschütztes Material oder Figuren enthalten sind. Selbst dann, wenn es selbst gezeichnete Fanart ist
  Das erinnert an die frühe Internetzeit, als Leute versuchten, kostenlose Fanfiction mit Verweis auf Urheberrechtsverletzungen verschwinden zu lassen. Das Urheberrecht auf private Nutzung anzuwenden, bei der der Urheber gar nichts verkaufen will, ist aus meiner Sicht ziemlich furchtbar
  Stellen wir uns 50 Jahre in der Zukunft vor: „Roboter, kannst du dieses Bild, das ich für ein Schul-Diorama gezeichnet habe, ausschneiden?“ „Natürlich.“ „Mach das hier auch.“ „Fehler: Dieses Bild enthält möglicherweise urheberrechtlich geschütztes Material und kann nicht verarbeitet werden.“
- Solche Beispiele sind wirklich belanglos oder Extremfälle. Worauf man hier achten muss, sind zwei Dinge
  Generative KI-Systeme sind durchaus in der Lage, urheberrechtsverletzendes Material zu erstellen
  Und wenn sie das tun, teilen sie es dem Nutzer nicht mit
  Daher kann jede Ausgabe gegen obscure, aber weiterhin geschützte Quellmaterialien aus dem Web verstoßen, und jeder, der diese Ausgabe verwendet, kann ohne jede Warnung einem Klagerisiko ausgesetzt sein
  Das ist sehr schwer zu beheben
- Es dürfte schwierig sein, alle „Kurzformen für bekannte Objekte“ oder Prompts zu entfernen, mit denen sich urheber- oder markenrechtlich geschützte Inhalte erzeugen lassen
  Wenn man nicht absichtlich verletzende Inhalte erzeugen will, kann man solche Ergebnisse zwar entfernen oder verwerfen; das Problem sind aber Leute, die die KI dazu bringen wollen, solche Inhalte zu erzeugen. Solange man nicht sämtliches urheber- oder markenrechtlich geschütztes Trainingsmaterial ausschließt, wird es unmöglich sein, sie aufzuhalten
  Ein weiteres Problem generativer KI ist, wie auch im Artikel erwähnt, dass Systeme wie DALL-E und ChatGPT im Kern Black Boxes sind
  Was passiert, wenn KI für Entscheidungen eingesetzt wird, in Situationen, in denen Nutzer oder Betroffene das Recht haben, genau zu erfahren, warum die KI so entschieden hat? Aus Geschäfts- und Rechtssicht halte ich die heutigen KI-Lösungen für riskant und denke, dass sie nur sehr begrenzt eingesetzt werden sollten. Denn nicht einmal ihre Entwickler können auf die exakten Informationsstücke zeigen, die die KI zu einer bestimmten Entscheidung gebracht haben
- Dieser Ansatz wird in großem Maßstab nahezu unmöglich
- Wie soll man wissen, ob man eine „bekannte Sache“ eingibt, wenn man es vorher nicht weiß?
  Wenn man „columbian coffee logo“ eingibt und bereits existierende Markenlogos herauskommen: Muss man dann das gesamte Internet rückwärts rekonstruieren, um zu prüfen, ob es diese Logos schon gab?
  KI sollte die Quellen ihrer Inspiration offenlegen. Ein Mensch, der sich von etwas inspirieren lässt und etwas erschafft, weiß genau, was er verwendet hat und ob er die Grenze zum Plagiat überschritten hat oder nicht. Die Funktionsweise von KI ist dafür aber viel zu undurchsichtig
  Meiner Meinung nach muss sie lediglich ihre Quellen offenlegen. Das würde allerdings bedeuten, dass KI-Unternehmen ihre Datensätze veröffentlichen müssten, und dabei könnten auch Informationen sichtbar werden, die sie gar nicht hätten besitzen dürfen oder nicht offenlegen sollten
Soweit ich es verstehe, entspricht der rechtliche Präzedenzfall für generative KI dem, dass Google Websites scrapen durfte, um im öffentlichen Interesse einen Suchindex aufzubauen.
Google darf auch gecachte Versionen von Websites anzeigen, und das ist der Originalinhalt dieser jeweiligen Site. Niemand würde sagen, dass Google Urheberrechte verletzt, nur weil es Inhalte anderer Websites wortgetreu anzeigt.
Deshalb halte ich dieses Argument für schwach. Wenn man alle kulturellen Referenzen und populären IPs entfernen müsste, sogar die weniger bekannten, würde KI nutzlos werden.
Persönlich finde ich, dass generative KI Links zu ähnlichem Originalmaterial aus den Trainingsdaten bereitstellen können sollte. Das wäre die minimale Art, diejenigen zu vergüten, die zum KI-Training beigetragen haben.
Wenn generative KI darauf hinausläuft, sowohl die Websites als auch die Künstler zu zerstören, die das Originalmaterial geschaffen haben, halte ich das langfristig nicht für tragfähig. Quellenangaben schaffen mehr Transparenz und helfen Nutzern auch zu verstehen, ob etwas eine Halluzination ist oder nicht.
Menschen sollten ein Opt-out dafür haben, dass ihre Inhalte fürs Training genutzt werden, und auch überprüfen können, ob sie in künftigen Versionen entfernt wurden.
Ehrlich gesagt halten KI-Unternehmen das nur geheim, um Klagen zu vermeiden. Ich denke, Regulierung kann in solchen Bereichen hilfreicher sein als apokalyptische Szenarien.
- „Niemand würde sagen, dass Google Urheberrechte verletzt, nur weil es Inhalte anderer Websites wortgetreu anzeigt“ – doch, in der Vergangenheit haben Journalisten und Getty Images genau das gesagt.
  [1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
  [2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
- „Wenn generative KI darauf hinausläuft, sowohl die Websites als auch die Künstler zu zerstören, die das Originalmaterial geschaffen haben, ist das langfristig nicht tragfähig“ – das ist der Elefant im Raum.
  Jede Technologiewelle hatte eine Methode, Kreative dazu zu bewegen, Zeit und Geld in die Erstellung von Originalmaterial zu investieren, und danach wurden die Regeln geändert.
  Google versprach Inhalten Reichweite und neue Märkte, und das funktionierte tatsächlich. Dann kamen Snippets, Werbung und alle möglichen Mechanismen, die Besucher auf der eigenen Autobahn festhielten, statt sie zur Originalseite zu schicken.
  Reddit, Stack Overflow usw. brachten Nutzer über Gamification wie Punkte und Badges sowie über Community dazu, Originalinhalte beizutragen.
  Jetzt bringt KI diese Ansätze ins Wanken. Mit jedem Schritt scheint der Anreiz, Originalmaterial zu schaffen, geringer zu werden, weil die Gegenleistung immer weiter schrumpft.
  Wenn KI Originalinhalte einfach nur wiederkäut, ohne irgendeinen Nutzen zurückzugeben – also ohne Reichweite, Gamification, Community oder die Möglichkeit auf Anerkennung –, welcher Anreiz bleibt Experten dann noch?
- „Links zu ähnlichem Originalmaterial aus den Trainingsdaten bereitstellen“ ist im Allgemeinen unmöglich, weil es sich hier nicht um Datenbanken handelt.
  Das ist so, als könntest du keine Links zu den Originalmaterialien liefern, die dich beim Schreiben deines Kommentars beeinflusst haben. Wie viel Training steckt in den Gewichten der Neuronen, die diese Antwort erzeugt haben? Wo hast du gelernt, Kursivschrift zu verwenden und wie sie die Interpretation von Wörtern beeinflusst? Wo hast du den passenden Ton für dieses Forum gelernt?
  Wenn „Menschen ein Opt-out dafür haben sollten, dass ihre Inhalte fürs Training genutzt werden“, sollte ich dann beim Schreiben eines Buches per Opt-out verhindern können, dass du dieses Buch liest? Sollte ich Bedingungen daran knüpfen dürfen, wer mein Werk lesen kann? Religion? Hautfarbe? Menschen mit schlechtem Gedächtnis?
  Ich hoffe, die Vorstellung, einzuschränken, wer Wissen erwerben darf, klingt absurd. Warum ist dieselbe Einschränkung dann in Ordnung, wenn sie nicht für „wer“, sondern für „was“ gilt?
  Weil KI-Unternehmen ihre Daten geheim halten, um Klagen zu vermeiden, sind Forschungsbarrieren entstanden. Statt dass ich und Joe mit demselben Datensatz gemeinsam forschen und Papers schreiben können, müssen Trainingsdaten versteckt werden. Aus Angst, dass die Ludditen kommen und die Maschinen zerschlagen. Lernen ist offenbar nur dann in Ordnung, wenn man es nicht zu gut macht.
- Der rechtliche Präzedenzfall ist noch nicht geklärt. Der von dir beschriebene „Präzedenzfall“ ist das Argument, das KI-Unternehmen verwendet haben: dass das Trainieren von Modellen mit im Internet verfügbaren Informationen als Fair Use gelten sollte.
  Ob KI-Training den Vier-Faktoren-Test für Fair Use tatsächlich erfüllt, bleibt jedoch abzuwarten.
- Die Fähigkeit, Quellen als Referenzen anzugeben, ist hier der entscheidende Unterschied.
  Ich stimme zu, dass man das auch in generativer KI umsetzen können sollte, aber das Vorhalten dieser Information könnte das Training erheblich verteuern, und KI-Unternehmen haben daran kaum Interesse. Wahrscheinlich werden sie eher versuchen, mögliche Urheberrechtsprobleme in einem Nachverarbeitungsschritt heuristisch zu bewerten.
  Die interessantere Frage ist, ob Rechteinhaber über Fälle nahezu wortgetreuer Wiedergabe hinaus unbefugte Nutzung geltend machen können, weil ihre Werke die KI kollektiv auf allgemeinere Weise beeinflusst haben.
Wir brauchen klarere Gesetze, die speziell für generative KI gelten. Es gibt zu viele Vergleiche und Analogien mit echten Menschen.
Da kommen Argumente wie: „Was ist, wenn jemand anhand markenrechtlich geschützten Materials zeichnen gelernt hat und dann versehentlich etwas Ähnliches erstellt?“ Aber diese Modelle sind keine Menschen und gehören in eine eigene Kategorie.
Ich denke, dass solche Modelle in gewissem Maß Markenrechtsverletzungen begehen, glaube aber zugleich, dass das erlaubt sein sollte. Die endgültige Verantwortung sollte bei der Person liegen, die das Bild als eigenständiges Medium für die allgemeine Öffentlichkeit nutzt.
- Das ist auch meine Position. Dass Dall-E C3PO ausspuckt, sollte für sich genommen völlig in Ordnung sein. Wenn ich mit diesem Output kein Geld verdiene, sollte Disney sich raushalten.
In solchen Diskussionen wirken Modelle eher wie ein Nebelschleier als wie der Kern, und die Debatte scheint sich daran festzufahren.
Modelle liefern in der „Verantwortungskette“ eine plausible Abstreitbarkeit. Wenn man „LLM“ herausnimmt und durch „magische Kiste aus einer Jahrmarkt-Attraktion“ ersetzt, verschwindet das Argument, ein LLM sei etwas Besonderes und verdiene deshalb eine Ausnahme, sehr schnell.
- Stimme vollkommen zu.
  Der Betamax-Präzedenzfall besagt, dass eine Technologie mit erheblichen nicht rechtsverletzenden Nutzungsmöglichkeiten nicht an sich rechtsverletzend ist.
  Es gibt bereits Präzedenzfälle, wonach für KI-generierte Werke kein Urheberrechtsschutz entsteht; nach derselben Logik wird beim Generieren durch KI keine Absicht ausgedrückt. Daher sollte die Frage der Rechtsverletzung beim Menschen liegen, der den Output verwendet. Die Blackbox selbst hat nämlich keine Handlungsträgerschaft.
- Einverstanden, und ich würde zuerst konkrete Beispiele dafür sehen wollen, dass LLMs in der Industrie auf „disruptive“ Weise produktiv und profitabel eingesetzt werden und Menschen etwa ihren Job verlieren.
  Bevor man zu dem Schluss kommt, dass LLMs oder allgemeiner generative Verfahren somehow die nächste große Welle sind, oder bevor man behauptet, wir stünden an der Schwelle zu „allgemeiner“ Intelligenz, sollte man uns erst diese Tür zeigen.
  Diese Tür könnte darin bestehen, dass jenseits des Unterhaltungswerts, etwas in eine Box einzugeben und zu sehen, was am anderen Ende herauskommt, eine industrielle Einführung zur Lösung realer Probleme stattfindet. Bisher sehe ich aber keinen Ort, an dem so etwas tatsächlich passiert.

Auf generative KI kommt größerer Copyright-Druck zu

Klage der New York Times und Experimente zur Bildwiederholung

Ähnliche Generierungen, die Schutzmaßnahmen nicht verhindern

Das Blackbox-Problem unbekannter Quellen

Ausweitung von Klagen und Risiko für Microsoft

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen