- Der Entwickler und Anwalt Matthew Butterick verklagt Microsoft, GitHub und OpenAI
- Es wird behauptet, dass Open-Source-Lizenzen verletzt und die Rechte von Programmierern missachtet wurden
- Bei Lizenzen wie GPL, Apache und MIT muss der Name des Urhebers angegeben werden, doch Copilot ignoriert dies
Sogar Code-Snippets mit mehr als 150 Zeichen werden unverändert kopiert
- Einige Programmierer bezeichnen dies als „Open-Source-Laundering“
- Die Kanzlei, die die Klage vertritt, sagte: „Es scheint, dass Microsoft von der Arbeit anderer profitiert, indem es die Bedingungen von Open-Source-Lizenzen und andere rechtliche Anforderungen ignoriert“
- Unabhängig von den Lizenzverstößen behauptet Butterick, dass die Funktion auch gegen einige andere Regelungen verstößt
- die GitHub Terms of Service und Privacy Policies
- DMCA 1202, das das Entfernen von Copyright-Management-Informationen verbietet
- den California Consumer Privacy Act
3 Kommentare
Am Ende ließe sich das vermutlich lösen, indem man die Open-Source-Lizenzen aufteilt, die Trainingsdaten entsprechend nutzt und das dann in den Optionen von Copilot auswählbar macht, oder? Und die Lizenzangaben würden dann passend dazu korrekt erzeugt. Passiert das bereits so? Ich habe Copilot noch nicht benutzt ...
Es ist zwar ein großes Thema, aber die Lösung scheint mir auch ziemlich klar zu sein.
Das ist doch auch beim Programmieren durch Menschen oft ein Problem, oder? Manchmal sucht man in der Firma jemanden, der zu einer XXX-Spezifikation keinen Open-Source-Referenzcode (zum Beispiel Linux) gelesen hat. (Für eine Cleanroom-Implementierung.) Manchmal bekommt man auch Ärger, wenn man bei der Arbeit gedankenlos einen Link auf Linux-Code schickt – "Ich darf diesen Code nicht lesen!". Und manchmal ist es auch unangenehm, wenn ich mich nicht mehr daran erinnern kann, ob ich diesen Code früher schon einmal gelesen habe.
Im Vergleich zu solchen Problemen, die Menschen haben, dürfte sich das hier sogar noch eindeutiger lösen lassen.
Als Copilot angekündigt wurde..
war ich zuerst begeistert~, aber ein paar Tage später gab es dann solche Lizenzprobleme.
Ich habe damals die Meinung gelesen, dass es ein großes Problem werden könnte, wenn man es falsch benutzt und dadurch unbeabsichtigt GPL-lizenzierter Code in großen Blöcken in den Code eines Firmenprodukts gerät, das gerade entwickelt wird ... und jetzt ist es Realität geworden.
Dass es einfach unverändert kopiert wird, ist schon etwas ... na ja. Deshalb wird der Bereich Explainable AI ja auch so intensiv diskutiert: eine KI, die erklären kann, warum ein solches Ergebnis herausgekommen ist.
Wenn Copilot das könnte, ließe sich ein großer Teil der Kontroverse vermutlich vermeiden, indem man die Open-Source-Codebasis, die am Ergebnis beteiligt war, als Kommentar ergänzt.