Wenn es legal ist, ist es dann fair? KI-Neuimplementierung und die Erosion von Copyleft
(writings.hongminhee.org)- Die Python-Zeichencodierungs-Erkennungsbibliothek chardet wurde mithilfe von KI neuimplementiert; der Wechsel von LGPL zu MIT löste eine Debatte über Open-Source-Ethik aus
- Es gab Stimmen, die die Rechtmäßigkeit von KI-Neuimplementierungen anerkennen, doch der Text betont, dass rechtliche Zulässigkeit und gesellschaftliche Legitimität nicht dasselbe sind
- Die historischen Neuimplementierungen von GNU und Linux waren eine Ausweitung von proprietär zu frei, während dieser Fall in Richtung einer Schwächung des Schutzes der Commons wirkt
- Die Weitergabebedingungen der GPL sind keine Einschränkung, sondern ein Mechanismus zur Sicherung wechselseitigen Teilens; MIT-artige Freiheit führt zu einer asymmetrischen Struktur, in der Vorteile nur zu den kapitalstärkeren Akteuren fließen
- Gerade in einer Zeit, in der KI Copyleft leicht umgehen kann, wird das Prinzip umso wichtiger, dass wer aus den Commons nimmt, auch an die Commons zurückgeben soll
KI-Neuimplementierung und Lizenzwechsel bei chardet 7.0
- Die Python-Bibliothek chardet wurde mit Anthropics Claude vollständig neu geschrieben
- Die neue Version ist 48-mal schneller als zuvor und unterstützt zusätzlich Multicore
- Die Code-Ähnlichkeit wurde mit unter 1,3 % gemessen und gilt daher als unabhängiges Werk
- Die Lizenz wurde von der bisherigen LGPL auf die MIT-Lizenz umgestellt, wodurch die Pflicht zur Offenlegung des Quellcodes entfällt
- Der ursprüngliche Autor Mark Pilgrim wies in einem GitHub-Issue auf einen möglichen LGPL-Verstoß hin
- Sein Argument: Eine Neuimplementierung mit KI, die dem bestehenden Codebestand ausgesetzt war, sei schwer als „Clean-Room“-Verfahren zu betrachten
Gegensätzliche Reaktionen aus der Open-Source-Szene
- Armin Ronacher (Schöpfer von Flask) begrüßte die Neulizenzierung und argumentierte, die GPL widerspreche dem Geist des Teilens
- Salvatore Sanfilippo (antirez, Schöpfer von Redis) verteidigte die Rechtmäßigkeit von KI-Neuimplementierungen und verwies dabei auf die Geschichte von GNU und das Urheberrecht
- Beide setzen rechtliche Zulässigkeit mit Legitimität gleich, doch der Text problematisiert gerade die Lücke zwischen Recht und Ethik
Die GNU-Geschichte und der Unterschied in der Stoßrichtung
- Die Neuimplementierungen von GNU waren ein Prozess, proprietäre Software in freie Software zu überführen
- Zentral war dabei nicht die rechtliche Zulässigkeit, sondern die ethische Stoßrichtung einer Ausweitung der Commons
- Der Fall chardet dagegen wirkt in die entgegengesetzte Richtung: Er entfernt den Copyleft-Schutz und reißt den Zaun um die Commons nieder
- Für Ableitungen auf Basis von chardet 7.0 gilt künftig keine Pflicht zur Offenlegung des Quellcodes mehr
- antirez übersehe diese entgegengesetzte Stoßrichtung und nutze den GNU-Präzedenzfall daher als unzutreffende Begründung
Die Bedeutung von GPL und Teilen
- Ronacher behauptet, die GPL beschränke das Teilen, doch der Text bezeichnet das als grundlegendes Missverständnis
- Die GPL verlangt die Offenlegung des Quellcodes nur bei Weitergabe, für private Nutzung gibt es keine Einschränkungen
- Sie ist damit ein Mechanismus zur Sicherung der Wechselseitigkeit des Teilens, nicht zu dessen Unterdrückung
- Die MIT-Lizenz lässt Empfänger des Codes frei handeln, verpflichtet sie aber nicht dazu, Beiträge zurückzugeben
- Das führt strukturell dazu, dass sich Vorteile bei Akteuren mit mehr Kapital und Personal konzentrieren
- Fälle aus den 1990er-Jahren, in denen GPL-Code in Unternehmen absorbiert wurde, zeigen die Notwendigkeit einer Stärkung von Copyleft
Ein selbstwidersprüchlicher Fall: Vercel und Cloudflare
- Vercel implementierte mit KI GNU Bash neu; als Cloudflare Next.js neuimplementierte, zeigte sich Vercel verärgert
- Da Next.js unter der MIT-Lizenz steht, gab es rechtlich kein Problem
- Das offenbart den Widerspruch, einerseits zu sagen, „die Umstellung von GPL auf MIT sei ein Sieg des Teilens“, und andererseits zu protestieren, wenn der eigene Code neuimplementiert wird
- Ronacher räumt diesen Punkt zwar ein, ändert aber seine Schlussfolgerung nicht; der Text bewertet das als eine an die eigene Position angepasste Schlussfolgerung statt als Logik
Die Unterscheidung zwischen Legalität und Legitimität
- Das Recht regelt nur, welche Handlungen nicht verboten sind, garantiert aber nicht, dass sie richtig sind
- Es gibt legale, aber gesellschaftlich schädliche Handlungen, etwa Steuervermeidung oder Preissteigerungen bei Medikamenten
- Die LGPL von chardet war nicht bloß ein rechtliches Instrument, sondern ein über zwölf Jahre gewachsenes gesellschaftliches Versprechen
- Ein vertrauensbasierter Vertrag: „Wer diesen Code nutzt, teilt ihn zu denselben Bedingungen weiter“
- Selbst wenn eine KI-Neuimplementierung rechtlich als neues Werk gilt, bricht sie das Vertrauen der Beitragenden
- Zoë Kooyman von der FSF erklärte ausdrücklich, es sei unsozial, anderen die Rechte nicht einzuräumen, die man selbst erhalten hat
Die Asymmetrie der Perspektiven
- antirez und Ronacher sind zentrale Figuren der Open-Source-Szene; KI-Neuimplementierungen bedeuten für sie ein für sie vorteilhaftes Umfeld
- Für die Beitragenden von chardet bedeuten sie dagegen den Verlust des Schutzes ihrer Beiträge
- Diese Asymmetrie zu ignorieren und einfach zu sagen, „rechtlich ist das unproblematisch“, bewertet der Text nicht als Analyse, sondern als Rationalisierung
Die Zukunft von Copyleft und gesellschaftliche Urteile
- Bruce Perens warnte, „die Ökonomie der Softwareentwicklung ist vorbei“
- antirez reagierte mit „man muss sich anpassen“, Ronacher mit „interessant“
- Die Kernfrage lautet jedoch: „Wird Copyleft umso notwendiger, je leichter es sich umgehen lässt?“
- Der Text antwortet darauf entschieden: „Ja.“
- Die GPL schützt nicht die Knappheit von Code, sondern die Freiheit der Nutzer
- Je leichter KI Neuimplementierungen macht, desto geringer wird auch die Reibung bei der Entfernung von Copyleft
- Das Prinzip „Wer aus den Commons nimmt, soll an die Commons zurückgeben“ ist eine gesellschaftliche Norm, die unabhängig von Zeit und technologischem Wandel gilt
- Das Recht ändert sich langsam, doch die Werturteile der Gemeinschaft haben sich stets zuerst bewegt
- Auch die Entwicklung von GPLv2 → v3 → AGPL zeigt, dass die Gemeinschaft dem Recht vorausging
- Im KI-Zeitalter müsse der Copyleft-Schutz auch auf Test-Suites und API-Spezifikationen ausgeweitet werden
- Fazit: Nicht ein rechtliches Urteil, sondern zuerst ein gesellschaftliches Urteil ist erforderlich, und
es wird betont, dass Legalität Legitimität nicht ersetzen kann
1 Kommentare
Meinungen auf Hacker News
Wenn sich Quellcode inzwischen allein aus einer Spezifikation (specification) erzeugen lässt, liegt das zentrale geistige Eigentum eines GPL-Projekts in der Spezifikation
Früher hat man dafür gekämpft, dass es rechtlich zulässig bleibt, Unternehmenssoftware nachzuahmen; heute scheint man dieses Recht freiwillig aufzugeben und den Rechteinhabern des geistigen Eigentums mehr Kontrolle zu geben
Dieser Trend wird weder zu anti-großkonzernhaften noch zu sharing-freundlichen Ergebnissen führen. Am Ende werden Großunternehmen diese Macht ausüben
Heute ist die Lage völlig anders. Die zitierte Behauptung wiederholt nur einen Punkt, der bereits kritisiert worden ist.
Wenn man dieser Diskussion folgen will, sollte man den Originalartikel unbedingt selbst lesen
Was ich daran interessant finde, ist die Frage, ob dieses Phänomen nicht nur das Urheberrecht, sondern das gesamte Konzept von geistigem Eigentum (IP) untergraben könnte
IP basiert auf der Annahme, dass Kreativität schwierig ist, aber LLMs automatisieren inzwischen nahezu jede Form der Wissensschöpfung, von mathematischen Beweisen bis zur Entwicklung neuer Medikamente
Gibt es dann noch einen Grund, Monopolrechte auf Schöpfungen zu vergeben, die nicht mehr „schwierig“ sind? KI wird letztlich sogar Patente nur als Randbedingungen behandeln und umgehen
Derzeit sind KI-Erzeugnisse rechtlich nicht urheberrechtlich geschützt; Schutz gibt es nur bei wesentlicher menschlicher Mitwirkung
Ergebnisse menschlicher Arbeit sollten davor geschützt werden, dass Großunternehmen sie gratis an sich nehmen
Nur ist es möglich, dass nicht mehr Menschen diejenigen sind, die diese Probleme lösen
Mit dem Aufkommen von Computern wurde es eigentlich schon bedeutungslos, hat aber dank Lobbyarbeit weitergelebt.
Vielleicht schlägt KI jetzt den letzten Nagel in den Sarg.
Am Ende zählen die weights des Modells, und sie sollten offengelegt oder notfalls dazu gezwungen werden, damit alle Zugriff haben
Jemand sollte das tatsächlich einmal ausprobieren
Man könnte den geleakten Minecraft-Quellcode in Copilot eingeben, eine vollständig identische Kopie in einer anderen Sprache erzeugen und sie als Open Source veröffentlichen
Ich frage mich, ob Microsoft das dann als Urheberrechtsverletzung bezeichnen würde
Stattdessen müsste man sagen: „Implementiere Minecraft von Grund auf neu.“
Texturen oder Modelle dürften dabei natürlich nicht wiederverwendet werden, also müsste die KI neue erzeugen
Dein Beispiel wäre ein Fall mit deutlich klarerer Verletzungswahrscheinlichkeit
Was wäre, wenn man mit einem LLM die Lizenz aus geleaktem Windows-Quellcode entfernt und daraus Code für WINE erstellt?
In letzter Zeit wird auch intensiv über Versuche mit LLM-gestützter Binär-Decompilierung diskutiert
Zwei Personen aus dem Open-Source-Lager haben sich an der Debatte beteiligt, aber beide sind keine IP-Anwälte
Der tatsächliche Jurist Richard Fontana hat sich zwar eingeschaltet, aber sein Issue wurde geschlossen
In einem GitHub-Issue wies er darauf hin, dass „KI-generierte Ergebnisse im Allgemeinen nicht urheberrechtlich geschützt sind“
Wenn also jemand den Code nicht selbst bearbeitet, sondern nur Prompts schreibt, hat allein das Anbringen einer MIT-Lizenz an diesem Code erhebliche rechtliche Implikationen
Es ist eher mit Fotografie vergleichbar. Die Kamera besitzt kein Urheberrecht, der Mensch aber schon
Auch ohne Eingriff auf Pixelebene kann etwas als menschliche Schöpfung anerkannt werden
Betrachtet man die Geschichte der GPL, war sie ein Versuch, Urheberrecht mit Urheberrecht zu bekämpfen
Schon der Name „Copyleft“ trägt diese Bedeutung in sich
KI höhlt nun aber das Urheberrecht selbst aus.
Inzwischen lassen sich nicht nur GPL-Programme, sondern auch proprietäre Software mit KI neu implementieren
Dann sollte GNU die GPL vielleicht aufgeben und LLMs als neue Waffe einsetzen
Das schwächt eher die Freiheit von Open Source und verlagert Macht hin zu Großunternehmen
Außerdem wurden LLMs mit dem Code zahlloser Freiwilliger trainiert, aber die Gewinne landen bei Großunternehmen
Dadurch könnte Open Source an Attraktivität verlieren, und auch der Respekt vor Lizenzen könnte verschwinden
Insbesondere garantiert sie Nutzern das Recht, die Software zu verändern, die auf ihren Geräten läuft
Wenn bestimmte Werkzeuge, Schlüssel oder Spezifikationen eingeschränkt sind, ist eine Neuimplementierung jedoch nicht möglich
Am Ende leiht man sich vielleicht nur die Waffe eines „bösen Unternehmens“, um zu kämpfen
Ich denke, Lizenzverstöße haben bereits stattgefunden
Die meisten großen Modelle haben bei der Datensammlung gegen Nutzungsbedingungen verstoßen
Daher kann man sagen, dass mit GPL-Code trainierte Modelle von den Pflichten einer Open-Source-Lizenz infiziert (infect) wurden
Rechtlich entscheidend sind ① ob die Daten rechtmäßig beschafft wurden und ② ob der Output ein origineller Ausdruck ist
In diesem Fall wurde festgestellt, dass 98,7 % neuer Code sind
Die eigentliche Frage ist, wie transformativ der Output ist.
Das ist auch der zentrale Streitpunkt im Verfahren NYT vs OpenAI
Blanchard sagte, er habe „nur die API und die Tests an Claude übergeben und es die Neuimplementierung schreiben lassen“,
aber das klingt ein wenig wie: „Ich habe mir die Augen verbunden und Farbe auf die Leinwand geworfen, und dabei kam zufällig Mickey Mouse heraus“
Da er der ursprüngliche Maintainer dieses Codes war, ist es schwer, ihn als vollständig unabhängig zu betrachten
Wenn er den Originalcode eingegeben und die KI angewiesen hat, eine Kopie zu erzeugen, wäre das weiterhin eine Urheberrechtsverletzung
Wenn KI nur ein Werkzeug ist, trägt der Nutzer die Verantwortung; wenn sie ein unabhängiger Akteur ist, ist auch sie selbst Verletzerin
Allerdings nur, solange Ausdruckselemente nicht unverändert kopiert werden
Wenn Blanchard alle Prompts offenlegt, könnte jeder dasselbe Ergebnis reproduzieren
Nach meinem Verständnis behauptete er nur, dass Claude den Code nicht gesehen habe
Laut Artikel hat Claude die Bibliothek nur anhand der API und der Tests neu implementiert
GPL2 betrachtet die Testsuite jedoch ebenfalls als Teil des Quellcodes
Wenn Claude also die Tests verwendet hat, könnte das Ergebnis nach LGPL 2.1 ein abgeleitetes Werk auf Basis des Originals sein
Es könnte allerdings unmöglich sein, die Tests unter MIT-Lizenz weiterzuverbreiten
Praktisch wäre daher, nur den Code unter MIT zu verteilen und die Tests parallel unter LGPL bereitzustellen
Testfälle könnte man ebenfalls als Teil der API-Nutzung betrachten
In unserem Unternehmen nutzt man inzwischen KI-Neuimplementierung, um Tools zu verwenden, die vom Sicherheitsteam nicht freigegeben werden
Das Sicherheitsteam verfolgt eine Politik des „default deny“, die Engineering-Teams dagegen eine Politik der „maximalen KI-Nutzung“
So entsteht am Ende eine bizarre Anreizstruktur, in der man interne Tools mit KI einfach neu baut
Wenn man ein anderes Ergebnis will, muss man bei der Gestaltung der Anreize anfangen
Wenn KI wiederholt brauchbaren sicherheitsrelevanten Code schreiben kann,
warum glaubt man dann, dass dieselbe KI keine Sicherheitsprüfung von Drittanbieter-Software leisten kann?
Ich würde gern wissen, warum diese Asymmetrie zwischen Produktion und Analyse existieren soll
Die Bedingungen der GPL werden erst bei der Distribution ausgelöst
Man muss den Quellcode offenlegen, wenn man geänderten Code verteilt oder als Netzwerkdienst anbietet
Das Anbieten als Netzwerkdienst gilt allerdings nicht als Distribution, weshalb zur Schließung dieser Lücke die AGPL geschaffen wurde