Kein Recht, dieses Projekt neu zu lizenzieren
(github.com/chardet)- Mark Pilgrim, der ursprüngliche Autor von
chardet, weist auf einen Verstoß gegen die LGPL-Lizenz des Projekts hin und fordert, die jüngste Umstellung auf die MIT-Lizenz in Version 7.0.0 zurückzunehmen - Er stellt klar, dass es sich selbst dann um ein Derivat handelt, das unter direkter Einsicht in den Originalcode erstellt wurde, wenn die Maintainer von einer „vollständigen Neuschreibung“ sprechen, und dass deshalb die LGPL beibehalten werden muss
- Mehrere Entwickler diskutieren, ob eine KI-gestützte Neuschreibung tatsächlich eine „Clean-Room-Implementierung“ ist und ob ein LLM auf den Originalcode trainiert wurde
- Einige erwähnten API-Kompatibilität und die Möglichkeit von Fair Use, die Mehrheit äußerte jedoch Bedenken wegen möglicher Urheberrechtsverletzungen und der rechtlichen Unsicherheit bei KI-generiertem Code
- Die Debatte wird als wichtiger Präzedenzfall rund um die urheberrechtliche Verantwortung für KI-generierten Code, Abläufe bei Lizenzänderungen in Open-Source-Projekten und die Grenzen der Befugnisse von Maintainern angesehen
Mark Pilgrims Einwand
- Mark Pilgrim erklärt, dass er der ursprüngliche Autor von
chardetist und das Projekt unter der LGPL-Lizenz veröffentlicht wurde- Er weist darauf hin, dass die Behauptung der Maintainer, sie hätten in Version 7.0.0 das Recht zur Neulizenzierung, falsch sei
- Code unter der LGPL müsse auch nach Änderungen unter derselben Lizenz veröffentlicht werden, und die Behauptung einer „vollständigen Neuschreibung“ habe keine rechtliche Grundlage
- Er stellt klar, dass das „Hinzufügen eines Code-Generators“ keine neuen Rechte verleiht
- Pilgrim fordert, das Projekt auf die ursprüngliche LGPL-Lizenz zurückzusetzen
Erste Reaktionen der Community
- Ein Nutzer fragte, ob es einen Fork einer Version vor der KI-gestützten Neuschreibung gebe; ein anderer verwies auf einen Link zu Version 6.0.0
- Einige stimmten zu, dass „Mark rechtlich im Recht ist“, und erkannten einen möglichen LGPL-Verstoß an
- Andere erwähnten aus pragmatischer Sicht, dass eine „Neuschreibung mit KI ein unvermeidlicher Trade-off“ sei
Juristische Debatte: API, Urheberrecht, Fair Use
- Ein Nutzer verwies auf das Urteil Google LLC v. Oracle America, Inc. und merkte an, dass auch APIs urheberrechtlich geschützt seien
- Eine Neuschreibung aus Gründen der API-Kompatibilität könne rechtswidrig sein, wenn die Voraussetzungen für Fair Use nicht erfüllt seien
- Darauf entgegnete ein anderer Nutzer, dass der Fall von Google als Fair Use anerkannt worden sei
- Die Diskussion weitete sich auf die Rechtmäßigkeit API-kompatibler Neuschreibungen und den urheberrechtlichen Status von KI-generiertem Code aus
Streit um KI-Code und Clean-Room-Implementierung
- Einige wiesen darauf hin, dass eine Clean-Room-Implementierung nicht vorliegt, wenn „die KI möglicherweise auf den Originalcode trainiert wurde“
- Ob ein LLM auf den
chardet-Code trainiert wurde, könnte entscheidend für die rechtliche Bewertung sein
- Ob ein LLM auf den
- Andere argumentierten, dass es möglich sein könnte, „wenn die KI den Code nur auf Basis von Ein- und Ausgaben erzeugt hat“
- Dagegen wurde eingewandt, dass „damit die Lizenz selbst bedeutungslos würde“
- Die unklare urheberrechtliche Verantwortung für KI-Code und die Schwierigkeit, die Einhaltung von Lizenzen zu überprüfen, rückten als zentrale Streitpunkte in den Vordergrund
Lizenzkompatibilität und GPL-Debatte
- Einige behaupteten, die MIT-Lizenz sei nicht mit der GPL kompatibel; ein anderer zitierte jedoch die offizielle Dokumentation der FSF und erklärte, dass MIT (Expat) GPL-kompatibel sei
- Allerdings bestand weitgehend Einigkeit darüber, dass eine Neulizenzierung von LGPL-Code unter MIT weiterhin einen Verstoß darstellt
- Ein weiterer Nutzer merkte an, dass man „nicht den Ruf und das Repository eines auf LGPL-Code basierenden Projekts behalten und zugleich die Verpflichtungen daraus abwerfen kann“
KI-Trainingsdaten und Vertrauensfrage
- Mehrere Nutzer stellten die Frage, ob man glauben könne, „dass Claude keinen LGPL-Code gelernt hat“
- Die mangelnde Nachvollziehbarkeit von KI-Trainingsdaten wurde als rechtliches Risiko genannt
- Einige argumentierten, dass man den Einsatz von KI-Code grundsätzlich vermeiden sollte, wenn er die Möglichkeit von Plagiaten in sich trägt
- Unter Verweis auf Forschung wurde eine Statistik genannt, wonach 2–5 % von KI-Code Kopien bestehenden Codes sein könnten
Projektidentität und Befugnisse der Maintainer
- Einige vertraten die Auffassung, dass eine neue Version unabhängig sein könnte, wenn sämtlicher früherer Code früherer Mitwirkender entfernt wurde
- Dem wurde jedoch entgegengehalten, dass die weitere Nutzung von Name und Reputation unangemessen sei
- Es wurde auch die Ansicht geäußert, dass „das Urheberrecht Ausdrucksformen schützt, nicht Namen“
- Manche meinten, es liege womöglich kein Rechtsverstoß vor, wenn die Maintainer tatsächlich den gesamten bestehenden Code entfernt haben, allerdings wurde kein klarer Beleg dafür vorgelegt
Gesamtbild aus Sicht der Community
- Mehrere Nutzer betonten, dass sowohl die Beiträge von Mark Pilgrim als auch von Dan Blanchard Respekt verdienten und dass man die komplexen Fragen rund um KI, Urheberrecht und Open-Source-Governance anerkennen müsse
- Die Diskussion weitete sich auf Themen wie die rechtliche Verantwortung für KI-Codegenerierung, die Legitimität von Lizenzänderungen bei Projekten und die Grenzen der Befugnisse von Open-Source-Maintainern aus
- Einige schlugen auch vor, v7.0.0 zu forken und wieder unter die LGPL zu stellen
Zusammenfassung der Kernpunkte
- Rechtmäßigkeit des Wechsels von LGPL zu MIT: Nach Mehrheitsmeinung ohne Zustimmung des ursprünglichen Rechteinhabers nicht möglich
- Urheberrechtlicher Status einer KI-Neuschreibung: Könnte je nach Exposition gegenüber den Trainingsdaten als Derivat gelten
- Frage der Clean-Room-Implementierung: Es müsste nachgewiesen werden, dass die KI den Originalcode nicht referenziert hat
- Problem der Nutzung von Projektname und -ruf: Eine Weiterverbreitung unter demselben Namen ist rechtlich und ethisch umstritten
- Vertrauenswürdigkeit von KI-Code: Sorgen über Plagiatsrisiken und die Stabilität der Supply Chain
Dieser Fall gilt als ein repräsentatives Beispiel für die Fragen rund um Urheberrecht bei KI-generiertem Code und die Einhaltung von Open-Source-Lizenzen und könnte künftig Einfluss auf die Struktur der rechtlichen Verantwortung für KI-Entwicklungstools haben.
1 Kommentare
Hacker-News-Kommentare
Ich denke, Pilgrim missversteht das Konzept des Clean Room beim Urheberrecht. Die Behauptung einer „vollständigen Neuschreibung“ ist nicht entscheidend. Rechtlich ist eine unabhängige Implementierung möglich. Clean Room ist nur ein prozedurales Mittel, um Prozesse zu vereinfachen; es ist keine rechtliche Anforderung, dem Originalcode nie ausgesetzt gewesen zu sein. Tatsächlich kannte auch Linux die interne Struktur von Unix, wurde aber unabhängig implementiert.
Die Behauptung „Wenn man die Codebasis kennt, ist schon das Umschreiben eine Urheberrechtsverletzung“ ist nicht vollständig stichhaltig. Internes Wissen betrifft den Patentbereich und hat mit dem Urheberrecht nichts zu tun. Wenn man aber den Originalcode danebenlegt und nur die Formulierungen austauscht, ist das natürlich ein Verstoß. Wenn eine KI den Originalcode sieht und ähnlichen Code erzeugt, könnte das faktisch als parallele Kopie angesehen werden. Wenn man den Originalcode dagegen nicht gesehen hat und alles komplett neu schreibt, ist es möglich. Rechtlich ist das aber schwer zu verteidigen, weshalb Unternehmen es als Risiko betrachten sollten.
Claude.mdgibt, ist es wahrscheinlich, dass der neue Maintainer Claude als Codegenerator verwendet hat, und das Modell dürfte mit dem Originalcode von chardet trainiert worden sein.Im Kern geht es um einen Verstoß gegen die LGPL. Wenn der neue Code auf dem Original basiert, gilt er als abgeleitetes Werk und muss daher unter der LGPL bleiben. Selbst wenn man von einer „vollständigen Neuschreibung“ spricht, kann es ein Lizenzverstoß sein, wenn man dem Originalcode ausgesetzt war.
Ich habe während einer Beratung einen interessanten Fall gesehen. Ein Engineer eines SaaS-Unternehmens hat mit Claude Code in einer Woche das eigene App-Produkt per Reverse Engineering analysiert und ein API-kompatibles Backend gebaut. Es kam die Frage: „Wie schützt man sich, wenn ein Wettbewerber das genauso macht?“
Ein Maintainer ist ein Treuhänder (trustee), kein Eigentümer. Er darf die Lizenz des Originalautors nicht eigenmächtig ändern. Wenn der Code wirklich komplett neu erstellt wurde, sollte man das Projekt unter einem neuen Namen starten. Aussagen wie „Dann friert eben die bestehende Version ein“ widersprechen dem Geist der Community.
Schon in einem Kommentar von 2021 wurde erwähnt, dass „chardet auf LGPL basiert und daher nicht umgelizenziert werden kann“. Wenn man das wusste und trotzdem neu geschrieben hat, war das eine leichtsinnige Entscheidung und respektlos gegenüber dem Originalautor.
Wenn KI den Originalcode gesehen hat und dann schreibt, ist das keine Clean-Room-Implementierung. Wäre es zulässig, zwei KI-Teams einzusetzen, von denen eines die Spezifikation erstellt und das andere implementiert? Das würde dem Präzedenzfall aus der IBM-Zeit folgen, aber wenn das Modell bereits auf dem Original trainiert wurde, bleibt es problematisch.
Wie in dem Witz „Ist es okay, wenn ich Wikipedia copy-paste und nur ein paar Wörter ändere?“ gilt letztlich: Absichtliche Umgehung funktioniert nicht. Wir leben in einer Zeit, in der es schwer ist, genug Vertrauen zu haben, um nicht sogar Abhängigkeitsversionen festzupinnen.
Andererseits ist es interessant, dass Mark Pilgrim wieder aufgetaucht ist. Seine Wikipedia-Seite enthält die Episode seines „Verschwindens aus dem Internet“. Seine Python-Bücher sind nach wie vor empfehlenswert.
Es gibt auch die Überraschung: „Wenn KI mit GPL-Code trainiert wurde, ist dann nicht jeder KI-Code GPL-kontaminiert (taint)?“