Microsoft übernimmt für Kunden die Haftung bei Copilot-Urheberrechtsklagen
(blogs.microsoft.com)- Wenn gewerbliche Kunden wegen der Nutzung von Copilot oder seiner Ausgaben wegen Urheberrechtsverletzung verklagt werden, übernimmt Microsoft die Verteidigung und trägt die Kosten aus nachteiligen Urteilen oder Vergleichen
- Diese Zusage erweitert die bestehende Freistellung bei geistigem Eigentum auf kommerzielle Copilot-Dienste; dazu gehören Microsoft 365 Copilot, GitHub Copilot und Bing Chat Enterprise
- Kunden müssen die im Produkt integrierten Inhaltsfilter und Guardrails verwenden und dürfen nicht versuchen, rechtsverletzende Inhalte mit Eingaben zu erzeugen, für die sie keine Rechte haben
- Mit dem Update vom 5. Januar 2024 wurde der Name der Zusage in Customer Copyright Commitment geändert und auf gewerbliche Kunden des Azure OpenAI Service ausgeweitet
- Microsoft beansprucht keine Rechte des geistigen Eigentums an Copilot-Ausgaben und ist der Ansicht, dass Urheberrecht, Vergütung von Urhebern und Wettbewerbsfragen bei generativer KI gemeinsam behandelt werden müssen
Copilot-Zusage zur Urheberrechtshaftung
- Microsoft hat das Copilot Copyright Commitment vorgestellt, um auf die Bedenken von Kunden zu reagieren, dass die Nutzung generativer KI-Ausgaben zu Urheberrechtsverletzungsklagen führen könnte
- Wenn gewerbliche Kunden wegen Microsoft-Copilot-Diensten oder deren Ausgaben von Dritten wegen Urheberrechtsverletzung verklagt werden, verteidigt Microsoft die Kunden und zahlt Beträge aus nachteiligen Urteilen oder Vergleichen
- Voraussetzung für die Geltung ist, dass Kunden die in Microsoft-Produkten integrierten Guardrails und Inhaltsfilter verwenden
- Microsoft vertritt die Auffassung, dass es nicht die Kunden, sondern Microsoft sein sollte, das die rechtlichen Risiken der Nutzung trägt, wenn Microsoft gewerblichen Kunden Copilot in Rechnung stellt
Geltungsbereich und Bedingungen für Kunden
- Das Copilot Copyright Commitment erweitert Microsofts bestehende IP-Freistellung auf urheberrechtliche Ansprüche im Zusammenhang mit der Nutzung KI-basierter Copilots und deren Ausgaben
- Erfasst sind kostenpflichtige kommerzielle Copilot-Dienste von Microsoft sowie Bing Chat Enterprise
- Microsoft 365 Copilot: Bietet generative KI in Word, Excel, PowerPoint und anderen Anwendungen und ermöglicht es Nutzern, auf Basis ihrer eigenen Daten Schlüsse zu ziehen oder Dokumente in Präsentationen umzuwandeln
- GitHub Copilot: Ein Dienst, der Entwicklern hilft, weniger Zeit für repetitive Programmierung aufzuwenden und mehr Zeit für neue und transformative Ergebnisse zu haben
- Kunden müssen die im Produkt integrierten Inhaltsfilter und andere Sicherheitssysteme verwenden
- Sie dürfen weder versuchen, rechtsverletzende Inhalte zu erzeugen, noch Copilot-Diensten Eingaben bereitstellen, für die ihnen keine angemessenen Nutzungsrechte zustehen
- Dieser Vorteil ändert nichts an Microsofts bisheriger Haltung, keine Rechte des geistigen Eigentums an den Ausgaben der Copilot-Dienste zu beanspruchen
Urheberrechtliche Bedenken und politische Balance
- Generative KI steigert Effizienz und Kreativität der Kunden, wirft aber auch die Frage auf, ob die Nutzung der Ausgaben zu IP-Verletzungsansprüchen führen kann
- Autoren und Künstler haben öffentlich problematisiert, wie ihre Werke in KI-Modellen und -Diensten verwendet werden, und Microsoft hält diese Kundenbedenken für nachvollziehbar
- Auch wenn das bestehende Urheberrecht in manchen Bereichen klar ist, schafft generative KI neue Fragen der öffentlichen Ordnung
- Microsoft nennt dabei drei gemeinsame Ziele
- KI soll zur Verbreitung von Wissen und zur Lösung gesellschaftlicher Herausforderungen beitragen
- Urheber sollen ihre Rechte nach dem Urheberrecht kontrollieren und gesunde Einnahmen aus ihren Werken erzielen können
- Inhalte, die für das Training und die Fundierung von KI-Modellen nötig sind, dürfen nicht bei wenigen Unternehmen eingeschlossen sein und so Wettbewerb und Innovation behindern
In Copilot integrierte Schutzmechanismen
- Microsoft integriert Filter und andere Technologien, um die Wahrscheinlichkeit zu verringern, dass Copilot rechtsverletzende Inhalte zurückgibt
- Diese Schutzmechanismen werden mit bestehender Arbeit für digitale Sicherheit, Security und Datenschutz kombiniert
- Zu den eingesetzten Guardrails gehören Klassifikatoren, Meta-Prompts, Inhaltsfilterung, Betriebsüberwachung und Missbrauchserkennung
- Die Missbrauchserkennung umfasst auch Nutzungen, die Inhalte Dritter verletzen könnten
- Das Copilot Copyright Commitment schafft einen Anreiz, diese Technologien einzusetzen, indem es von Kunden ihre Nutzung verlangt, um urheberrechtliche Bedenken besser zu berücksichtigen
Ausweitung auf den Azure OpenAI Service
- Laut Update vom 5. Januar 2024 hat Microsoft das Copilot Copyright Commitment am 15. November 2023 zum Customer Copyright Commitment erweitert
- Zu den neu erfassten Fällen gehören gewerbliche Kunden, die den Azure OpenAI Service nutzen
- Auch wenn Kunden wegen der Nutzung von Ausgaben des Azure OpenAI Service wegen Urheberrechtsverletzung verklagt werden, verteidigt Microsoft die Kunden und zahlt Beträge aus nachteiligen Urteilen
- Diese Ausweitung soll zusätzliche Kundenbedenken hinsichtlich möglicher Haftung für IP-Verletzungen durch die Nutzung von Ausgaben von Microsoft Copilot und dem Azure OpenAI Service adressieren
- Kunden müssen die von Microsoft bereitgestellten erforderlichen Guardrails und Minderungsmaßnahmen umsetzen, um Leistungen aus dem Customer Copyright Commitment zu erhalten
- Microsoft stellt für den Azure OpenAI Service Dokumentation und Werkzeuge bereit, um den verantwortungsvollen Einsatz von KI zu unterstützen und das Risiko von Verletzungen urheberrechtlich geschützter Inhalte zu senken
Verbreitung von KI und Schutz kreativer Werke
- Microsoft sieht diese Maßnahme als ersten Schritt und ist der Auffassung, dass die durch KI entstehenden Rechtsfragen von der Branche gemeinsam mit verschiedenen Interessengruppen gelöst werden müssen
- Für Kunden wirkt sie als Zusage, dass Microsoft die urheberrechtliche Haftung für seine Produkte übernimmt
- Microsoft bewertet die Vorteile von KI positiv, erkennt aber auch Herausforderungen und Risiken einschließlich des Schutzes kreativer Werke an
- Nach Ansicht des Unternehmens müssen Risiken gemeinsam mit der Technologiebranche, Autoren und Künstlern sowie ihren Vertretern, Regierungsvertretern, der Wissenschaft und der Zivilgesellschaft gesteuert werden
- Künftig soll dies zu neuen Initiativen führen, die sicherstellen, dass KI die Verbreitung von Wissen voranbringt und zugleich die Rechte und Bedürfnisse von Urhebern schützt
1 Kommentare
Meinungen auf Hacker News
Microsoft sollte zuerst ein Copilot-Modell veröffentlichen, das mit den internen Codebasen von Azure, Windows und Office trainiert wurde
Nur so könnte man überzeugt sein, dass Microsoft Copilot wirklich für eine Technologie hält, die keine Urheberrechte verletzt
Die internen Engineers wären mit den Datenstrukturen, dem Code-Stil usw. bereits vertraut, wodurch die Produktivität steigen und die Genauigkeit deutlich besser werden würde
Außerdem könnte sich Third-Party-Code weltweit immer mehr dem Microsoft-Stil annähern, was Recruiting und Schulung erleichtern könnte
Der Nachteil, dass Außenstehende kleine Hinweise auf Microsofts Quellcode erhalten könnten, dürfte kaum ins Gewicht fallen, wenn man bedenkt, dass sich durch Dekompilieren der Binaries bereits deutlich mehr Informationen gewinnen lassen
Vielmehr will das Unternehmen nur dann die Verantwortung übernehmen, wenn alle folgenden Bedingungen erfüllt sind: Eine solche Ausgabe ist tatsächlich erfolgt, der Nutzer hat den Filter, der dies verhindern soll, nicht deaktiviert, er hat sie nicht absichtlich herbeigeführt, und die Nutzung wird als rechtswidrig eingestuft
Code, der vor böswilligen Akteuren geheim gehalten werden muss, ist etwas anderes als Code, der öffentlich ist, aber Nutzungsbeschränkungen unterliegt, die dem Empfänger bekannt sein müssen
Das ähnelt dem Argument: „Wenn man glaubt, dass Lizenzverträge rechtlich wirksam sind, dann veröffentlicht doch die Passwörter der Nutzer und hängt eine Lizenz daran, die jedem verbietet, sie zu benutzen“
Selbst wenn keinerlei Verletzungsrisiko bestünde, könnte Microsoft eine solche Veröffentlichung nicht wollen
GitHub Copilot basierte auf GPT-3, das mit öffentlichen Code-Repositories feinabgestimmt wurde, und genau dieser Teil steht im Zentrum der Kontroverse
Dieser Blogbeitrag behandelt das breitere Microsoft-Copilot-Ökosystem
Die meisten Tools nutzen im Backend den Azure OpenAI API Service und sind nicht speziell auf Codegenerierung ausgerichtet
Da generative KI im Allgemeinen einen transformativen Charakter hat, ist es wahrscheinlich, dass sie als Fair Use eingestuft wird.
Wenn man wirklich darauf hinsteuert, kann man zwar Ergebnisse erzeugen, die bestehendem Code oder bestehenden Bildern ähneln, aber Gerichte könnten insgesamt davon ausgehen, dass neue Inhalte entstehen, die es zuvor nicht gab – insbesondere bei Bildern.
Google Books wurde als Fair Use eingestuft, obwohl Bücher wortwörtlich kopiert und in eine Online-Datenbank gestellt wurden; daher dürfte die deutlich stärker transformative generative KI mit höherer Wahrscheinlichkeit in den weiteren Betrachtungsbereich von Fair Use fallen.
Google Books war zwar nichtkommerziell, doch Gerichte gehen üblicherweise davon aus, dass die Maßstäbe für Fair Use umso weniger streng angewendet werden können, je größer die Transformativität ist.
https://ogc.harvard.edu/pages/copyright-and-fair-use
Google Books war Fair Use, weil es dem öffentlichen Interesse diente, Verlagen oder Autoren nicht schadete und Menschen im Gegenteil dabei half, Werke zu finden.
Generative KI hingegen extrahiert den Kern aus den Werken von Menschen, erzeugt Ergebnisse mit ähnlichem Stil usw. und kann die ursprünglichen Autoren vollständig ausschließen und ihnen die Früchte ihrer Arbeit nehmen.
Besonders problematisch ist, dass es ein rein mechanischer Prozess ist und außer dem, was aus anderen Autoren extrahiert wurde, keine menschliche Kreativität einfließt. Ein einfacher Prompt ist schwerlich als Kreativität anzusehen.
Letztlich läuft es auf die Logik hinaus: „Wir verwenden urheberrechtlich geschützte Werke, aber weil wir sie in großem Maßstab vermischen, ist es in Ordnung.“
Das geht eher zulasten der Behauptung, generative KI sei Fair Use.
Da Transformativität insbesondere mit Marktauswirkungen verknüpft wurde, wird es für Gerichte viel schwieriger, generative KI als transformativ anzusehen, wenn sie Ausgaben erzeugt, die direkt mit den Eingaben konkurrieren.
Bei der Bilderzeugung gilt das umso mehr, weil sie klar mit Stockbildern konkurriert.
Es kann keine pauschale Garantie wie „generative KI insgesamt ist Fair Use“ geben, und ob ein Ergebnis transformativ ist, ist nur einer von mehreren Faktoren.
Das sieht man an Fällen zu Audio-Sampling oder Remixes.
Es mag Ausnahmen geben, etwa wenn in einer Forschungsarbeit aus einem Buch zitiert wird, aber mit solchen Sonderfällen kann man in Internetdebatten höchstens Spitzfindigkeiten betreiben.
Die Tatsache, dass Copilot selbst ein zulässiges transformatives Werk sein könnte, führt nicht zu dem Schluss, dass Entwickler keine Haftung für Urheberrechtsverletzungen tragen, wenn sie dessen Ausgaben in ihre eigenen Werke einbauen.
Genauso wenig kann man davon ausgehen, dass alle von anderen erzeugten Ergebnisse frei von Urheberrechtsproblemen sind. Man würde zwar nicht behaupten, dass eine Person selbst ein verletzendes Werk ist, nur weil sie ein anderes Werk gesehen hat; das Ergebnis ist aber eine andere Frage.
https://www.notion.so/DSM-Directive-Implementation-Tracker-3...
https://eur-lex.europa.eu/eli/dir/2019/790/oj
Die TDM4-Urheberrechtsausnahme erlaubt die Erstellung von Datensätzen aus urheberrechtlich geschützten Werken, solange es einen Mechanismus gibt, mit dem Rechteinhaber widersprechen können.
Das wirkt wie der bestmögliche Kompromiss: Datensätze werden transparenter, Rechteinhaber können ihre Rechte ausüben, und bestimmte KI-Unternehmen können mit urheberrechtlich geschütztem Material trainieren.
Natürlich gewährt das keine kommerziellen Rechte an den trainierten Modellen, sondern nur Rechte für wissenschaftliche und akademische Forschung. Das bedeutet zum Beispiel: Wenn Meta ein auf Büchern trainiertes LLaMA-Modell trainiert und veröffentlicht, wäre das in Ordnung, sofern es keinen kommerziellen Gewinn erzielt und es einen Mechanismus gibt, mit dem Autoren widersprechen können.
Ich diskutiere mit Jordan von https://spawning.ai, ob sich ein passendes Widerspruchssystem für Bücher entwickeln lässt; für Musik kann man sich einen ähnlichen Ansatz vorstellen.
Das ist europäisches Recht, wirkt aber im Gegensatz zu anderen überzogenen EU-Regulierungen wie ein sehr vernünftiger Kompromiss.
Nachtrag: Jordan hat mir eine Korrektur per E-Mail geschickt; demnach ist mein Verständnis richtig, dass das Widerspruchsrecht nur für kommerzielle Forschung gilt. Das heißt: Für die Erstellung von Datensätzen für Einrichtungen wie Eleuther ist möglicherweise kein Widerspruchsverfahren nötig; erforderlich wird es, wenn OpenAI sie für GPT-5 verwendet und dafür Geld verlangt.
Dann gilt dieses Gesetz tatsächlich für die kommerzielle Nutzung von Machine Learning, während für nichtkommerzielle Nutzungen wie LLaMA nicht einmal ein Widerspruchsrecht erforderlich wäre.
Das ist hervorragend, weil es Forschern einen rechtlichen Schutzschirm gibt und bei kommerzieller Nutzung Transparenz der Datensätze verlangt.
Ich frage mich, ob es zu dieser Ankündigung tatsächliche Details gibt
Mir ist klar, dass es ein Blogbeitrag ist, aber da alle Links auf der Seite nur auf andere Blogbeiträge verweisen, bleiben viele Fragen offen
Ist dieser Blogbeitrag ein rechtlich durchsetzbarer Vertrag? Stellt Microsoft konkret alle Nutzer von Ansprüchen wegen Urheberrechtsverletzungen frei, die durch die Nutzung von Copilot entstehen?
Der Blogbeitrag sagt: „Dieses Programm hat wichtige Bedingungen“, und listet einige davon auf, aber es ist unklar, ob das alle Bedingungen sind oder ob es zusätzliche Bedingungen gibt, die im Beitrag nicht erwähnt werden
Zum Beispiel weiß ich nicht, ob es nur für bestimmte Länder gilt oder für alle Rechtssysteme weltweit
Welche Garantie gibt es, dass Microsoft dieses Programm nicht einstellt? Wenn Gerichte wiederholt zuungunsten von Microsoft entscheiden und das Unternehmen erkennt, dass es nicht die Mittel hat, jedes Mal Entschädigungen zu zahlen, wenn Copilot große Teile urheberrechtlich geschützten Codes per Lizenzwäsche wiederverwendet: Hat der Nutzer dann irgendein Mittel, Microsoft zur Einhaltung seines Versprechens zu zwingen?
Brad Smith, der Anwalt ist, dürfte das verstehen
Wenn nicht, warum sollte er Microsoft, ein Unternehmen mit 2,5 Billionen Dollar Börsenwert, dem Risiko einer unbegrenzten Haftungsgarantie aussetzen?
Es gibt das Konzept des promissory estoppel
https://www.nolo.com/dictionary/promissory-estoppel-term.htm...
Die Microsoft-Dokumente sind zahlreich und etwas verwirrend, aber die Copilot-bezogenen Dokumente sind relativ eindeutig, und seit dem Frühjahr hat sich die Freistellungsklausel nicht geändert
Ein sehr kluger Schachzug von Microsoft
Im Grunde malen sie sich damit selbst eine riesige Zielscheibe für künftige Klagen auf den Rücken, offenbar in der Einschätzung, dass sie die Ressourcen haben, das auszufechten. Und diese Einschätzung ist nicht falsch
Wenn man sieht, wohin sich KI bewegt, wird es bald wichtige Präzedenzfälle geben
Für Microsoft ist es sehr wichtig, diesen Markt so schnell wie möglich wachsen zu lassen und im Zentrum davon zu stehen
Dieser Schritt verringert für kleinere Organisationen ein zentrales Hindernis bei der Einführung generierten Codes: die Sorge „Werde ich verklagt, wenn dieses Produkt urheberrechtlich geschützten Code erzeugt?“
Microsoft wirft den Fehdehandschuh hin und sagt gewissermaßen: „Die gewaltige Microsoft-Rechtsmaschine wird kämpfen“
Im Grunde ist das eine Machtdemonstration nach dem Motto: „Verklagt uns doch, nur zu. Oder geht nach Hause“
Eine Möglichkeit, als tragbare Steuer etwas Geld an die White-Collar-Seite abzugeben und zugleich zu verhindern, dass der Druck auf Regierungen, Microsoft stark einzuschränken, zu schnell wächst
Sie werden die Öffentlichkeit einige Jahre lang steuern, Pressemitteilungen herausgeben und Zeit gewinnen, während sie in der Zwischenzeit ihre Position festigen
Daran hängt ein großes Sternchen: „Kunden dürfen nicht versuchen, verletzendes Material zu erzeugen“
Am Ende hängt alles davon ab, wie Microsoft definiert, was es bedeutet, versucht zu haben, verletzendes Material zu erzeugen
Man würde hoffen, dass damit ursprünglich nur Nutzungen ausgeschlossen sind, bei denen der Nutzer wissentlich etwas Verletzendes anfordert, etwa „rekonstruiere den gesamten Quellcode von Half-Life 2“, aber tatsächlich weiß man es nicht
Ich vertraue ihnen nicht, dass sie fair konkurrieren, und ich vertraue ihnen auch nicht als Arbeitgeber
Ich vertraue ihnen nicht, dass sie im Umfeld nationaler Politik keine korrupten Dinge tun, und ich möchte auch nicht ihr Partner bei einem bedeutenden Projekt sein
Aber eine Sache, in der Microsoft wirklich gut ist, sind zuverlässige und langfristig tragfähige Business-to-Business-Geschäfte
Als Geschäftskunde vertraue ich ihnen. Wenn sie diese Lücke ausnutzen würden, würde ihr Ruf zusammenbrechen
Ich nutze Google Cloud Platform nicht, weil sie Kunden häufig übel mitspielen, aber AWS und Azure vertraue ich, weil sie das nicht tun
Die Kosten, für Rechtsverletzungen zu zahlen, sind wahrscheinlich viel geringer als die Kosten, dieses Vertrauen zu verlieren
Allerdings hat Microsoft damit auch einen stärkeren Anreiz, dafür zu lobbyieren, dass das Recht so gestaltet wird, dass bei der Nutzung solcher Tools kaum Haftung entsteht
Die Frage, ob Microsoft den Code anderer Leute stiehlt und weiterverkauft, bleibt jedoch bestehen
Wenn man ein LLM nutzt, um Fragen zu Unternehmensdokumenten beantworten zu lassen, kann es unbeabsichtigt vortrainiertes urheberrechtlich geschütztes Material erzeugen
So einfach ist es möglicherweise nicht
Selbst wenn Microsoft die Verantwortung übernimmt, kann der Rechtsverletzer separat verklagt werden. Danach könnte Microsoft die Prozesskosten übernehmen
Aber es kann Produktnutzer nicht kategorisch vor Klagen schützen
Die zentrale Formulierung lautet sinngemäß: „Wenn ein Dritter einen kommerziellen Kunden wegen der Nutzung von Microsoft Copilot oder der erzeugten Ausgabe auf Urheberrechtsverletzung verklagt, wird Microsoft den Kunden verteidigen und nachteilige Urteile oder Vergleichszahlungen übernehmen, sofern der Kunde die im Produkt eingebauten Schutzmechanismen und Inhaltsfilter verwendet hat“
Hier ist „verteidigen“ wichtig und bedeutet vermutlich, dass der Nutzer Microsofts Anwälte nutzt, nicht seine eigenen
Diese sind intern und möglicherweise günstiger als externe Anwälte, die stundenweise abrechnen
Außerdem gibt es Bedingungen dafür, wie das Produkt zu nutzen ist, und entscheidend ist, dass der Nutzer dokumentieren muss, dass er es auf diese Weise genutzt hat
Eine interessante Entwicklung. Unternehmenskunden waren möglicherweise vorsichtig, diese Tools einzusetzen, weil sie befürchteten, dabei versehentlich Urheberrechte zu verletzen, und das dürfte die Einführung verzögert haben
Insbesondere dann, wenn es um potenziell hohe Schadensersatzsummen geht
Der Kern ist, die durch rechtliche Risiken verursachte Einführungshürde zu senken
Gilt nur, wenn die Schutzmechanismen aktiviert sind
Einer dieser Schutzmechanismen besteht darin, Copilot daran zu hindern, Code auszugeben, der in irgendeinem GitHub-Repository existiert
Ich habe Copilot mit aktivierten Schutzmechanismen getestet, und es war praktisch auf dem Niveau von geköpft außer Gefecht gesetzt
Übrigens ist das keine neue Änderung. In den Copilot Product Specific Terms gab es bereits eine Klausel, dass „Microsoft die Verantwortung übernimmt, wenn man verklagt wird“: https://github.com/customer-terms/github-copilot-product-spe...
Ich wurde in anderen Communities wegen dieser Antwort stark kritisiert, aber wenn ein statistisches Modell im Kern ein mathematisches Modell ist, das eher einem Prädiktor für das nächste optimale Token ähnelt und daraus rein abgeleitete Werke erzeugt: Ist das wirklich „Diebstahl“?
Ist es „Diebstahl“, das nächste optimale Token zu verstehen oder sogar zu wissen, welche Tokens auf GitHub am häufigsten vorkommen?
Man könnte auch behaupten, dass alle wertvollen Ideen bereits entstanden und alle brauchbaren Texte bereits geschrieben sind und deshalb jede KI illegal sein müsste – aber wo bliebe dann unsere Ausgangslage?
Eine Funktion, die etwa einen String von Groß- in Kleinbuchstaben umwandelt, ähnelt mit hoher Wahrscheinlichkeit einer Funktion, die irgendjemand anders irgendwo auf der Erde geschrieben hat; bei Code zur Fehlerbehandlung oder der modernen Methode, ein div zu zentrieren, ist es genauso
Darüber wird vor Gericht ständig gestritten
Wenn man ein Modell trainiert und veröffentlicht hätte, das auf die Eingabe „When Mr. Bilbo Baggins“ mit der Ausgabe der gesamten Herr-der-Ringe-Trilogie reagiert, hätte man wahrscheinlich Urheberrechte verletzt
Wenn es dagegen einen allgemeinen Absatz über „Berge“ und „Drachen“ erzeugt und keine nennenswerten direkten Zitate oder Formulierungen enthält, ist das für sich genommen wahrscheinlich kein Verstoß. Solche Wörter kommen in Tolkiens Werken vor, aber die Wörter selbst sind nicht urheberrechtlich geschützt
Wenn allerdings nachgewiesen wird, dass Tolkiens Werke zum Training des Modells in einer Weise vervielfältigt wurden, die die Urheberrechtslizenz nicht erlaubt, könnte bereits in einem Zwischenschritt eine Urheberrechtsverletzung vorliegen, auch wenn die Modellausgabe nicht mehr wie eine Kopie des Originals aussieht
Ich glaube, hier gibt es keine Schwarz-Weiß-Antwort. Ab welchem Punkt ist ein urheberrechtlich geschütztes Werk, das in kleine Teile zerlegt und statistisch verarbeitet wurde, nicht mehr urheberrechtlich geschützt? Kann man ein Modell trainieren, ohne etwas zuvor auf eine Weise zu kopieren, die gegen das Urheberrecht verstößt?
Das sind weiche menschliche Konzepte, über die Menschen in Gerichten und Gesetzgebungsorganen entscheiden, und ich glaube nicht, dass mathematische Details am Endergebnis viel ändern
Worum es hier geht, ist aber nicht Diebstahl, sondern Urheberrechtsverletzung, und das sind unterschiedliche Konzepte
Wegen dieses subtilen, aber grundlegenden Unterschieds fallen die Reaktionen wohl auch eher kühl aus
Das Urheberrecht soll die ursprüngliche Ausdrucksform von Ideen schützen, die in Form eines schöpferischen Werks ausgedrückt sind, nicht die Ideen selbst
Für Verschlüsselungs- oder Kompressionsalgorithmen ließe sich eine ähnliche Argumentation aufbauen
Ich frage mich, wie verbindlich ein solches öffentliches Versprechen ist
Das ähnelt Musk, der kürzlich öffentlich sagte, er werde die Kosten von Leuten übernehmen, die wegen Äußerungen auf der Plattform berufliche oder rechtliche Probleme bekommen haben, sich inzwischen aber weigert, dieses Versprechen einzulösen
Wenn eine Codebase die GPL verletzt hat, besteht die Abhilfe darin, den betroffenen Quellcode offenzulegen oder die Verbreitung einzustellen
Ich glaube nicht, dass Microsoft sich, wenn es um Code von Dritten geht, um eines von beidem besonders große Sorgen macht
Ich weiß nicht, wie die Rechtsprechung zu Schadensersatz bei Open-Source-Projekten aussieht, aber es dürfte nicht so gravierend sein, dass es Microsoft große Sorgen bereitet
Anders gesagt: Microsofts Downside-Risiko besteht darin, Anwälte einzusetzen, während der Upside in besseren Code-Generierungswerkzeugen liegt
Bin kein Anwalt