3 Punkte von GN⁺ 2026-03-07 | 1 Kommentare | Auf WhatsApp teilen
  • Das Open-Source-Projekt chardet v7.0.0 hat den gesamten Code mithilfe eines KI-Tools neu geschrieben und die Lizenz von LGPL auf MIT geändert
  • Der ursprüngliche Autor behauptet, dass dieser Vorgang möglicherweise gegen die GPL verstößt, und weist darauf hin, dass ein von einer KI erzeugtes Ergebnis, wenn die KI auf dem Originalcode trainiert wurde, keine „Clean-Room-Implementierung“ ist
  • Bei einem traditionellen Clean-Room-Verfahren müssen zwei Teams getrennt arbeiten, doch die KI umgeht diese Trennung, wodurch die Frage entsteht, ob es sich um ein abgeleitetes Werk handelt
  • Gleichzeitig erkennt der Oberste Gerichtshof der USA kein Urheberrecht an KI-Erzeugnissen an, wodurch Eigentumsverhältnisse und Wirksamkeit der Lizenz des neuen Codes unklar werden
  • Falls solche Fälle anerkannt werden, besteht das Risiko, dass Copyleft-Strukturen ausgehebelt werden

KI-basierte Neuschreibung und Lizenzwechsel im chardet-Projekt

  • Die Python-Bibliothek zur Erkennung von Zeichenkodierungen chardet war ursprünglich ein Port des C++-Codes von Mozilla und war daher an die LGPL gebunden
    • Dadurch waren Unternehmenskunden mit rechtlicher Unsicherheit konfrontiert
  • Die Maintainer haben mithilfe von Claude Code den gesamten Code neu geschrieben und v7.0.0 unter der MIT-Lizenz veröffentlicht
  • Der ursprüngliche Autor a2mark behauptet, dass diese Maßnahme gegen die LGPL verstößt
    • Der geänderte Code müsse weiterhin der LGPL folgen, und die Behauptung einer „vollständigen Neuschreibung“ sei ungültig, da es sich um ein in Kenntnis des Originalcodes erzeugtes Ergebnis handele
    • Er stellt ausdrücklich fest, dass KI-Codegenerierung keine zusätzlichen Rechte verleiht

Clean-Room-Implementierung und ihre Umgehung durch KI

  • Eine traditionelle Clean-Room-Neuschreibung (clean room rewrite) besteht aus zwei Teams
    • Team A analysiert den Originalcode und erstellt eine Funktionsspezifikation
    • Team B schreibt neuen Code ausschließlich auf Basis dieser Spezifikation, ohne den Originalcode zu sehen
  • Wenn jedoch eine KI mit dem ursprünglichen LGPL-Code gefüttert wird und daraus Code erzeugt, entfällt diese prozedurale Trennung
  • Wenn die KI auf Basis des Originalcodes gelernt hat und daraus Ergebnisse erzeugt, könnte das Resultat als von der LGPL abgeleitetes Werk gelten

Entscheidung des Obersten Gerichtshofs der USA und rechtliches Paradox

  • Am 2. März 2026 hat der Oberste Gerichtshof der USA eine Berufung zur Frage der urheberrechtlichen Anerkennung von KI-Erzeugnissen abgewiesen
    • Damit bleibt die Entscheidung der Vorinstanz zur „Voraussetzung menschlicher Urheberschaft (Human Authorship)“ bestehen
  • Dadurch sehen sich die chardet-Maintainer mit drei rechtlichen Widersprüchen konfrontiert
    • Urheberrechtslücke: Wenn KI-Erzeugnisse nicht urheberrechtlich geschützt sind, fehlt die rechtliche Grundlage für eine Relizenzierung unter MIT
    • Abgeleitetes-Werk-Falle: Wenn KI-Ausgaben abgeleitete Werke des ursprünglichen LGPL-Codes sind, liegt ein Lizenzverstoß vor
    • Eigentumslücke: Wenn die KI tatsächlich vollständig neuen Code erzeugt hat, würde dieser im Moment seiner Entstehung zur Public Domain gehören, wodurch die MIT-Lizenz selbst bedeutungslos würde

Mögliche Auswirkungen auf Copyleft

  • Wenn eine Lizenzänderung durch KI-Neuschreibung zulässig wäre, könnte das Fundament von Copyleft zusammenbrechen
  • Dann könnte jeder ein GPL-Projekt in ein LLM eingeben, es auffordern, es „in einem anderen Stil neu zu schreiben“, und es anschließend unter MIT-Lizenz veröffentlichen
  • Der Fall chardet v7.0.0 gilt als erster realer Testfall für diese rechtlichen und ethischen Grenzen

1 Kommentare

 
GN⁺ 2026-03-07
Hacker-News-Meinungen
  • Laut der Antwort des Maintainers hat er Claude ausdrücklich angewiesen, keinen LGPL/GPL-Code zu referenzieren, aber es ist sehr wahrscheinlich, dass das Modell bereits mit diesem Code trainiert wurde
    Es gilt derzeit als unmöglich, dass ein LLM den Einfluss seiner Trainingsdaten vollständig „vergisst“
    Dazu gibt es unter anderem dieses Projekt
    Ich bin Entwickler und Anwalt für geistiges Eigentum, und diese Fragen entwickeln sich auch vor US-Gerichten weiter
    Übrigens stellt der kostenpflichtige Enterprise-Plan von Anthropic Nutzer bei Urheberrechtsverletzungen frei, während bei den Free-/Pro-/Max-Plänen umgekehrt der Nutzer Anthropic freistellen muss (Klausel 11 der Nutzungsbedingungen)

    • Der Maintainer behauptet, er habe es „von Grund auf neu geschrieben“, tatsächlich hat er aber die Testdaten von chardet unverändert verwendet und ist jemand, der den Originalcode seit über 10 Jahren gepflegt hat
      Für eine echte Clean-Room-Implementierung (clean-room implementation) müsste man die Person mit Kenntnis des Originals von der Person trennen, die neu implementiert, was hier nicht der Fall war
    • Zu einem ähnlichen Thema gab es auch Diskussionen in diesem Thread
    • Es gab Forschung dazu, beim Training bestimmte Tokens zufällig zu maskieren, damit der Originaltext nicht wortwörtlich eingeprägt wird
      Die Idee war, unter Erhalt der Bedeutung Teile von Wörtern zu entfernen, um direkte Zitate zu verhindern
    • Ich fand es hilfreich, zum ersten Mal von den Unterschieden bei den Freistellungsklauseln je nach kostenpflichtigem Plan zu erfahren
  • Dieser Beitrag missversteht die Bedeutung einer „Clean-Room-Implementierung“
    Es geht nicht einfach nur darum, „den Originalcode nicht anzusehen“, sondern darum, unabhängig von der API-Spezifikation zu implementieren
    Von LLMs erzeugter Code hat eine hohe Wahrscheinlichkeit, dem Original zu ähneln, und birgt damit das rechtliche Risiko, als Vervielfältigung eingestuft zu werden
    Das Verhalten des chardet-Maintainers wirkt rechtlich wie eine unverantwortliche Umlizenzierung und könnte künftig Supply-Chain-Probleme verursachen

    • Dem wurde mit Verweis auf eine rechtliche Erläuterung widersprochen, wonach zwei Personen, die denselben Code unabhängig voneinander erstellen, jeweils ein eigenes Urheberrecht daran haben können
    • Urheberrechtliche Vervielfältigung setzt nur dann ein, wenn es einen Informationsfluss gibt
      Wenn lediglich dasselbe Ergebnis herauskommt, ist das nur ein funktionales Resultat und keine Urheberrechtsverletzung
    • Auch eine API-basierte Implementierung birgt rechtliche Risiken, wie der Fall Google vs Oracle zeigt
      Siehe dazu den Wiki-Artikel
    • Es gibt auch Präzedenzfälle dafür, dass es legal ist, etwas ohne Einsicht in das Original neu zu schreiben, etwa der Phoenix-Clean-Room-Fall zum IBM-PC-BIOS
    • Wenn ein vollständiges CRRE-Verfahren (clean-room reverse engineering) befolgt wird, ist der Code rechtlich keine Vervielfältigung, selbst wenn er 1:1 identisch ist
      In einem realen Verfahren ist eine Verteidigung bei hoher Ähnlichkeit allerdings schwierig
      Der chardet-Fall könnte wie die japanische Kontroverse um Font-Urheberrechte selbst ohne substantielle Verletzung zur Einstellung der Verbreitung führen
  • „LGPL-Code bleibt LGPL“
    Solange nicht alle ursprünglichen Rechteinhaber ausdrücklich zustimmen, ist eine Lizenzänderung unmöglich
    Dass KI den Code transformiert hat, bedeutet nicht, dass das Urheberrecht verschwindet
    Sonst würde die gesamte US-Urheberrechtsindustrie zusammenbrechen

    • Rechtlich gibt es keine gesonderte Eigenschaft namens „LGPL-Code“; entscheidend ist, ob eine Vervielfältigungshandlung erlaubt ist
      Wenn jemand ohne Erlaubnis ein abgeleitetes Werk erstellt, ist die Frage, ob diese Person dann selbst wieder eine Erlaubnis erteilen kann, kompliziert
    • Entscheidungen des SCOTUS stärken eher die Rechte der ursprünglichen Urheber, weil sie davon ausgehen, dass KI-Ergebnisse keine Schöpfungshöhe haben
    • Bei einer vollständigen KI-basierten Clean-Room-Neuschreibung könnte man das Ergebnis faktisch als Public Domain ansehen, in der Praxis kommt das aber selten vor
  • Durch generative KI ist das Urheberrechtssystem aus der Zeit gefallen
    Frühere Gesetze gingen von Modellen mit engem Zweck aus, heute gibt es Modelle, die mit allen Quellen konkurrieren können
    Auch die Lizenzstrategie der GNU beruhte auf der Knappheit von Code, doch nun ist Codegenerierung so einfach geworden, dass ihre Bedeutung schwindet

    • Wenn man einer KI den Originalcode gibt und sagt „schreib das bitte neu“, ist das ein abgeleitetes Werk; gibt man nur eine Funktionsbeschreibung, ist es ein neues Werk
      Im Streitfall könnten Claude-Logs als Beweismittel dienen
    • Es gab auch die Kritik, man habe „die Gleichung verändert, indem man das Gesetz gebrochen hat“
    • Die bisherige Annahme, dass Ideen nicht geschützt sind, Ausdrucksformen aber schon, gerät im KI-Zeitalter ins Wanken
      Wir leben nun in einer Zeit, in der die Erzeugung von Ausdruck leichter ist als die von Ideen
    • Manche sehen diese Veränderung sogar als positives Signal, weil sie monopolartige Urheberrechtsstrukturen aufbrechen könnte
    • Das Ziel der GNU war nicht die Lizenz selbst, sondern die Freiheit der Nutzer
      Eine Welt, in der durch KI jeder Code schreiben kann, kommt dem Ideal nahe, das GNU sich erträumt hat
  • Es wurde bezweifelt, dass von KI erzeugter Code, falls er wirklich ein neues Werk wäre, sofort zur Public Domain werden könnte
    Da man nicht wissen kann, auf welchen Daten das Modell trainiert wurde, könnte dies unter Reverse Engineering fallen
    Deshalb solle die restriktivste Lizenz gelten, und KI-Unternehmen sollten Erlöse an die ursprünglichen Urheber zurückführen

    • Dann würde aber „All Rights Reserved“ gelten, sodass man KI-Outputs gar nicht verwenden könnte
      Modelle, die nur mit tatsächlich erlaubten Daten trainiert wurden, haben in der Praxis eine sehr geringe Leistung
      Wenn alle KI-Erzeugnisse als abgeleitete Werke betrachtet würden, wären alle Open-Source-Projekte kontaminiert
    • Solange eine KI den Originalcode nicht nahezu unverändert reproduziert, beanstanden US-Gerichte das Urheberrecht an den Trainingsdaten nicht
      Wenn letztlich niemand außer einem Menschen Eigentum geltend machen kann, wird es faktisch als Public Domain behandelt
    • Es gab auch den halb scherzhaften Vorschlag, allen von LLMs generierten Code einfach pauschal unter GPL v3 zu stellen
    • Ein zynischer Kommentar meinte, das Gesetz werde sich erst ändern, wenn die Interessen von Disney betroffen seien
    • Ob die KI den Originalcode direkt verwendet hat oder ihn über eine Zwischenrepräsentation neu geschrieben hat, wird die rechtliche Haftung beeinflussen
  • Als verwandte Diskussion gibt es den anderen Thread „No right to relicense this project“

    • Dort wirkt es eher wie ein schlicht plagiiertes Projekt, während es im chardet-Fall um die Legitimität einer KI-Neuschreibung geht
  • Der Behauptung, eine MIT-Lizenz sei bedeutungslos, wenn KI-generierter Code Public Domain wäre, wurde widersprochen
    KI-Erzeugnisse sind nicht dasselbe wie schlichtes Kopieren und unterliegen weiterhin den Lizenzbeschränkungen des Originals

    • Weil KI-Ergebnisse rechtlich nicht als urheberrechtlich geschützte Werke anerkannt werden, kann ihnen auch niemand eine Lizenz erteilen
      Ein Gedichtgenerator, der mit Project Gutenberg trainiert wurde, könnte zum Beispiel ebenfalls kein Urheberrecht beanspruchen
    • Bei Code sind die rechtlichen Maßstäbe allerdings weiterhin unklar
      Bei Makros, Codegeneratoren oder Automatisierungsfunktionen wie Intellisense ist die Grenze dessen, was als „KI-generiert“ gilt, unscharf
    • Es gab auch die Korrektur, dass nicht „copywrite“, sondern „copyright“ der richtige Begriff ist
    • Andere meinten, auch KI-Erzeugnisse könnten urheberrechtlich geschützt sein, wenn ein Mensch kreativ eingegriffen hat
  • Früher gab es Diskussionen darüber, chardet in die Python-Standardbibliothek aufzunehmen
    Durch die aktuelle Kontroverse um die Lizenzänderung sei diese Möglichkeit nun wohl vom Tisch
    Siehe dazu dieses Issue sowie Aussage des Maintainers 1 und Aussage 2

  • Eine solche KI-Umlizenzierung könnte das Ende von Open Source, insbesondere von Copyleft, bedeuten
    Wenn Lizenzen keine Schutzfunktion mehr haben, werden Entwickler wieder zu geschlossener Entwicklung zurückkehren

    • Ich habe deshalb ebenfalls ganz aufgehört, Open Source zu veröffentlichen
      Neueste Modelle sind inzwischen sogar zu Reverse Engineering von WebAssembly fähig, was sich wie eine Dark-Forest-Theorie anfühlt
    • Das betrifft nicht nur Open Source, sondern alle Projekte mit offengelegtem Quellcode
    • Der Zweck der GPL ist nicht, „unerwünschte Nutzung zu verhindern“, sondern bei Änderungen die Offenlegung des Quellcodes zu verlangen
      Wenn KI-Neuschreibungen unter die GPL fallen, müssten auch sie offengelegt werden
    • Dem wurde entgegengehalten, dass man „freie Software“ zu schließen schon grundsätzlich der Philosophie der Freiheit widerspricht
  • Der Schlussfolgerung „Wenn man per KI-Neuschreibung die Lizenz ändern kann, bricht das das gesamte Urheberrecht“ wurde zugestimmt
    Denn das ließe sich auf Filme, Musik, Romane und alle anderen kreativen Werke anwenden
    Letztlich werden Gerichte solche Versuche wohl nicht als zulässige Umgehung des Urheberrechts anerkennen,
    und man hofft, dass das chardet-Projekt angesichts dieser gewaltigen juristischen Welle nicht zum Versuchskaninchen wird