Probleme bei der Relizenzierung durch KI-gestützte Neuschreibung

(tuananh.net)

3 Punkte von GN⁺ 2026-03-07 | 1 Kommentare | Auf WhatsApp teilen

Das Open-Source-Projekt chardet v7.0.0 hat den gesamten Code mithilfe eines KI-Tools neu geschrieben und die Lizenz von LGPL auf MIT geändert
Der ursprüngliche Autor behauptet, dass dieser Vorgang möglicherweise gegen die GPL verstößt, und weist darauf hin, dass ein von einer KI erzeugtes Ergebnis, wenn die KI auf dem Originalcode trainiert wurde, keine „Clean-Room-Implementierung“ ist
Bei einem traditionellen Clean-Room-Verfahren müssen zwei Teams getrennt arbeiten, doch die KI umgeht diese Trennung, wodurch die Frage entsteht, ob es sich um ein abgeleitetes Werk handelt
Gleichzeitig erkennt der Oberste Gerichtshof der USA kein Urheberrecht an KI-Erzeugnissen an, wodurch Eigentumsverhältnisse und Wirksamkeit der Lizenz des neuen Codes unklar werden
Falls solche Fälle anerkannt werden, besteht das Risiko, dass Copyleft-Strukturen ausgehebelt werden

KI-basierte Neuschreibung und Lizenzwechsel im chardet-Projekt

Die Python-Bibliothek zur Erkennung von Zeichenkodierungen chardet war ursprünglich ein Port des C++-Codes von Mozilla und war daher an die LGPL gebunden
- Dadurch waren Unternehmenskunden mit rechtlicher Unsicherheit konfrontiert
Die Maintainer haben mithilfe von Claude Code den gesamten Code neu geschrieben und v7.0.0 unter der MIT-Lizenz veröffentlicht
Der ursprüngliche Autor a2mark behauptet, dass diese Maßnahme gegen die LGPL verstößt
- Der geänderte Code müsse weiterhin der LGPL folgen, und die Behauptung einer „vollständigen Neuschreibung“ sei ungültig, da es sich um ein in Kenntnis des Originalcodes erzeugtes Ergebnis handele
- Er stellt ausdrücklich fest, dass KI-Codegenerierung keine zusätzlichen Rechte verleiht

Clean-Room-Implementierung und ihre Umgehung durch KI

Eine traditionelle Clean-Room-Neuschreibung (clean room rewrite) besteht aus zwei Teams
- Team A analysiert den Originalcode und erstellt eine Funktionsspezifikation
- Team B schreibt neuen Code ausschließlich auf Basis dieser Spezifikation, ohne den Originalcode zu sehen
Wenn jedoch eine KI mit dem ursprünglichen LGPL-Code gefüttert wird und daraus Code erzeugt, entfällt diese prozedurale Trennung
Wenn die KI auf Basis des Originalcodes gelernt hat und daraus Ergebnisse erzeugt, könnte das Resultat als von der LGPL abgeleitetes Werk gelten

Entscheidung des Obersten Gerichtshofs der USA und rechtliches Paradox

Am 2. März 2026 hat der Oberste Gerichtshof der USA eine Berufung zur Frage der urheberrechtlichen Anerkennung von KI-Erzeugnissen abgewiesen
- Damit bleibt die Entscheidung der Vorinstanz zur „Voraussetzung menschlicher Urheberschaft (Human Authorship)“ bestehen
Dadurch sehen sich die chardet-Maintainer mit drei rechtlichen Widersprüchen konfrontiert
- Urheberrechtslücke: Wenn KI-Erzeugnisse nicht urheberrechtlich geschützt sind, fehlt die rechtliche Grundlage für eine Relizenzierung unter MIT
- Abgeleitetes-Werk-Falle: Wenn KI-Ausgaben abgeleitete Werke des ursprünglichen LGPL-Codes sind, liegt ein Lizenzverstoß vor
- Eigentumslücke: Wenn die KI tatsächlich vollständig neuen Code erzeugt hat, würde dieser im Moment seiner Entstehung zur Public Domain gehören, wodurch die MIT-Lizenz selbst bedeutungslos würde

Mögliche Auswirkungen auf Copyleft

Wenn eine Lizenzänderung durch KI-Neuschreibung zulässig wäre, könnte das Fundament von Copyleft zusammenbrechen
Dann könnte jeder ein GPL-Projekt in ein LLM eingeben, es auffordern, es „in einem anderen Stil neu zu schreiben“, und es anschließend unter MIT-Lizenz veröffentlichen
Der Fall chardet v7.0.0 gilt als erster realer Testfall für diese rechtlichen und ethischen Grenzen

1 Kommentare

GN⁺ 2026-03-07

Hacker-News-Meinungen

Laut der Antwort des Maintainers hat er Claude ausdrücklich angewiesen, keinen LGPL/GPL-Code zu referenzieren, aber es ist sehr wahrscheinlich, dass das Modell bereits mit diesem Code trainiert wurde
Es gilt derzeit als unmöglich, dass ein LLM den Einfluss seiner Trainingsdaten vollständig „vergisst“
Dazu gibt es unter anderem dieses Projekt
Ich bin Entwickler und Anwalt für geistiges Eigentum, und diese Fragen entwickeln sich auch vor US-Gerichten weiter
Übrigens stellt der kostenpflichtige Enterprise-Plan von Anthropic Nutzer bei Urheberrechtsverletzungen frei, während bei den Free-/Pro-/Max-Plänen umgekehrt der Nutzer Anthropic freistellen muss (Klausel 11 der Nutzungsbedingungen)
- Der Maintainer behauptet, er habe es „von Grund auf neu geschrieben“, tatsächlich hat er aber die Testdaten von chardet unverändert verwendet und ist jemand, der den Originalcode seit über 10 Jahren gepflegt hat
  Für eine echte Clean-Room-Implementierung (clean-room implementation) müsste man die Person mit Kenntnis des Originals von der Person trennen, die neu implementiert, was hier nicht der Fall war
- Zu einem ähnlichen Thema gab es auch Diskussionen in diesem Thread
- Es gab Forschung dazu, beim Training bestimmte Tokens zufällig zu maskieren, damit der Originaltext nicht wortwörtlich eingeprägt wird
  Die Idee war, unter Erhalt der Bedeutung Teile von Wörtern zu entfernen, um direkte Zitate zu verhindern
- Ich fand es hilfreich, zum ersten Mal von den Unterschieden bei den Freistellungsklauseln je nach kostenpflichtigem Plan zu erfahren
Dieser Beitrag missversteht die Bedeutung einer „Clean-Room-Implementierung“
Es geht nicht einfach nur darum, „den Originalcode nicht anzusehen“, sondern darum, unabhängig von der API-Spezifikation zu implementieren
Von LLMs erzeugter Code hat eine hohe Wahrscheinlichkeit, dem Original zu ähneln, und birgt damit das rechtliche Risiko, als Vervielfältigung eingestuft zu werden
Das Verhalten des chardet-Maintainers wirkt rechtlich wie eine unverantwortliche Umlizenzierung und könnte künftig Supply-Chain-Probleme verursachen
- Dem wurde mit Verweis auf eine rechtliche Erläuterung widersprochen, wonach zwei Personen, die denselben Code unabhängig voneinander erstellen, jeweils ein eigenes Urheberrecht daran haben können
- Urheberrechtliche Vervielfältigung setzt nur dann ein, wenn es einen Informationsfluss gibt
  Wenn lediglich dasselbe Ergebnis herauskommt, ist das nur ein funktionales Resultat und keine Urheberrechtsverletzung
- Auch eine API-basierte Implementierung birgt rechtliche Risiken, wie der Fall Google vs Oracle zeigt
  Siehe dazu den Wiki-Artikel
- Es gibt auch Präzedenzfälle dafür, dass es legal ist, etwas ohne Einsicht in das Original neu zu schreiben, etwa der Phoenix-Clean-Room-Fall zum IBM-PC-BIOS
- Wenn ein vollständiges CRRE-Verfahren (clean-room reverse engineering) befolgt wird, ist der Code rechtlich keine Vervielfältigung, selbst wenn er 1:1 identisch ist
  In einem realen Verfahren ist eine Verteidigung bei hoher Ähnlichkeit allerdings schwierig
  Der chardet-Fall könnte wie die japanische Kontroverse um Font-Urheberrechte selbst ohne substantielle Verletzung zur Einstellung der Verbreitung führen
„LGPL-Code bleibt LGPL“
Solange nicht alle ursprünglichen Rechteinhaber ausdrücklich zustimmen, ist eine Lizenzänderung unmöglich
Dass KI den Code transformiert hat, bedeutet nicht, dass das Urheberrecht verschwindet
Sonst würde die gesamte US-Urheberrechtsindustrie zusammenbrechen
- Rechtlich gibt es keine gesonderte Eigenschaft namens „LGPL-Code“; entscheidend ist, ob eine Vervielfältigungshandlung erlaubt ist
  Wenn jemand ohne Erlaubnis ein abgeleitetes Werk erstellt, ist die Frage, ob diese Person dann selbst wieder eine Erlaubnis erteilen kann, kompliziert
- Entscheidungen des SCOTUS stärken eher die Rechte der ursprünglichen Urheber, weil sie davon ausgehen, dass KI-Ergebnisse keine Schöpfungshöhe haben
- Bei einer vollständigen KI-basierten Clean-Room-Neuschreibung könnte man das Ergebnis faktisch als Public Domain ansehen, in der Praxis kommt das aber selten vor
Durch generative KI ist das Urheberrechtssystem aus der Zeit gefallen
Frühere Gesetze gingen von Modellen mit engem Zweck aus, heute gibt es Modelle, die mit allen Quellen konkurrieren können
Auch die Lizenzstrategie der GNU beruhte auf der Knappheit von Code, doch nun ist Codegenerierung so einfach geworden, dass ihre Bedeutung schwindet
- Wenn man einer KI den Originalcode gibt und sagt „schreib das bitte neu“, ist das ein abgeleitetes Werk; gibt man nur eine Funktionsbeschreibung, ist es ein neues Werk
  Im Streitfall könnten Claude-Logs als Beweismittel dienen
- Es gab auch die Kritik, man habe „die Gleichung verändert, indem man das Gesetz gebrochen hat“
- Die bisherige Annahme, dass Ideen nicht geschützt sind, Ausdrucksformen aber schon, gerät im KI-Zeitalter ins Wanken
  Wir leben nun in einer Zeit, in der die Erzeugung von Ausdruck leichter ist als die von Ideen
- Manche sehen diese Veränderung sogar als positives Signal, weil sie monopolartige Urheberrechtsstrukturen aufbrechen könnte
- Das Ziel der GNU war nicht die Lizenz selbst, sondern die Freiheit der Nutzer
  Eine Welt, in der durch KI jeder Code schreiben kann, kommt dem Ideal nahe, das GNU sich erträumt hat
Es wurde bezweifelt, dass von KI erzeugter Code, falls er wirklich ein neues Werk wäre, sofort zur Public Domain werden könnte
Da man nicht wissen kann, auf welchen Daten das Modell trainiert wurde, könnte dies unter Reverse Engineering fallen
Deshalb solle die restriktivste Lizenz gelten, und KI-Unternehmen sollten Erlöse an die ursprünglichen Urheber zurückführen
- Dann würde aber „All Rights Reserved“ gelten, sodass man KI-Outputs gar nicht verwenden könnte
  Modelle, die nur mit tatsächlich erlaubten Daten trainiert wurden, haben in der Praxis eine sehr geringe Leistung
  Wenn alle KI-Erzeugnisse als abgeleitete Werke betrachtet würden, wären alle Open-Source-Projekte kontaminiert
- Solange eine KI den Originalcode nicht nahezu unverändert reproduziert, beanstanden US-Gerichte das Urheberrecht an den Trainingsdaten nicht
  Wenn letztlich niemand außer einem Menschen Eigentum geltend machen kann, wird es faktisch als Public Domain behandelt
- Es gab auch den halb scherzhaften Vorschlag, allen von LLMs generierten Code einfach pauschal unter GPL v3 zu stellen
- Ein zynischer Kommentar meinte, das Gesetz werde sich erst ändern, wenn die Interessen von Disney betroffen seien
- Ob die KI den Originalcode direkt verwendet hat oder ihn über eine Zwischenrepräsentation neu geschrieben hat, wird die rechtliche Haftung beeinflussen
Als verwandte Diskussion gibt es den anderen Thread „No right to relicense this project“
- Dort wirkt es eher wie ein schlicht plagiiertes Projekt, während es im chardet-Fall um die Legitimität einer KI-Neuschreibung geht
Der Behauptung, eine MIT-Lizenz sei bedeutungslos, wenn KI-generierter Code Public Domain wäre, wurde widersprochen
KI-Erzeugnisse sind nicht dasselbe wie schlichtes Kopieren und unterliegen weiterhin den Lizenzbeschränkungen des Originals
- Weil KI-Ergebnisse rechtlich nicht als urheberrechtlich geschützte Werke anerkannt werden, kann ihnen auch niemand eine Lizenz erteilen
  Ein Gedichtgenerator, der mit Project Gutenberg trainiert wurde, könnte zum Beispiel ebenfalls kein Urheberrecht beanspruchen
- Bei Code sind die rechtlichen Maßstäbe allerdings weiterhin unklar
  Bei Makros, Codegeneratoren oder Automatisierungsfunktionen wie Intellisense ist die Grenze dessen, was als „KI-generiert“ gilt, unscharf
- Es gab auch die Korrektur, dass nicht „copywrite“, sondern „copyright“ der richtige Begriff ist
- Andere meinten, auch KI-Erzeugnisse könnten urheberrechtlich geschützt sein, wenn ein Mensch kreativ eingegriffen hat
Früher gab es Diskussionen darüber, chardet in die Python-Standardbibliothek aufzunehmen
Durch die aktuelle Kontroverse um die Lizenzänderung sei diese Möglichkeit nun wohl vom Tisch
Siehe dazu dieses Issue sowie Aussage des Maintainers 1 und Aussage 2
Eine solche KI-Umlizenzierung könnte das Ende von Open Source, insbesondere von Copyleft, bedeuten
Wenn Lizenzen keine Schutzfunktion mehr haben, werden Entwickler wieder zu geschlossener Entwicklung zurückkehren
- Ich habe deshalb ebenfalls ganz aufgehört, Open Source zu veröffentlichen
  Neueste Modelle sind inzwischen sogar zu Reverse Engineering von WebAssembly fähig, was sich wie eine Dark-Forest-Theorie anfühlt
- Das betrifft nicht nur Open Source, sondern alle Projekte mit offengelegtem Quellcode
- Der Zweck der GPL ist nicht, „unerwünschte Nutzung zu verhindern“, sondern bei Änderungen die Offenlegung des Quellcodes zu verlangen
  Wenn KI-Neuschreibungen unter die GPL fallen, müssten auch sie offengelegt werden
- Dem wurde entgegengehalten, dass man „freie Software“ zu schließen schon grundsätzlich der Philosophie der Freiheit widerspricht
Der Schlussfolgerung „Wenn man per KI-Neuschreibung die Lizenz ändern kann, bricht das das gesamte Urheberrecht“ wurde zugestimmt
Denn das ließe sich auf Filme, Musik, Romane und alle anderen kreativen Werke anwenden
Letztlich werden Gerichte solche Versuche wohl nicht als zulässige Umgehung des Urheberrechts anerkennen,
und man hofft, dass das chardet-Projekt angesichts dieser gewaltigen juristischen Welle nicht zum Versuchskaninchen wird

Probleme bei der Relizenzierung durch KI-gestützte Neuschreibung

KI-basierte Neuschreibung und Lizenzwechsel im chardet-Projekt

Clean-Room-Implementierung und ihre Umgehung durch KI

Entscheidung des Obersten Gerichtshofs der USA und rechtliches Paradox

Mögliche Auswirkungen auf Copyleft

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen