- Gemäß der Vereinbarung zwischen Stack Overflow und OpenAI sollen alle Fragen und Antworten von Stack Overflow zum Training von Generative-AI-Modellen verwendet werden
- Dies soll ohne die unter der CC-BY-SA-Lizenz erforderliche Namensnennung der Urheber erfolgen
- Die CC-BY-SA-Lizenz verlangt zudem, dass abgeleitete Werke unter derselben Lizenz weitergegeben werden
- Deshalb habe ich bei Stack Overflow die Löschung meiner Daten beantragt und mein Konto geschlossen
- Bei Reddit habe ich dieselben Schritte unternommen
- Denn Daten, zu deren Erstellung ich beigetragen habe, würden in LLMs gebündelt und mir dann wieder verkauft
- Stack Overflow entfremdet damit auf einen Schlag die Community, die eine zentrale Quelle seines Wettbewerbsvorteils ist
- Früher wurde der psychologische Vertrag erfüllt: Man half einander, wenn man helfen konnte, in der Erwartung, dass andere in Zukunft ebenfalls helfen würden
- Jetzt ist es kein Austausch mehr, sondern
#enshittification
- Programmierer erleben nun Ähnliches wie Künstler und Copywriter: Ihre Werke wurden in die Entwicklung von GenAI-Lösungen hineingezogen
- Falls OpenAI wie GitHubs Copilot ein LLM baut, das Code erzeugt, stellt sich die Frage, wo man Hilfe für Bugs bekommen soll, die durch das generierte AI-Modell eingeführt wurden
- Laut einem aktuellen GitClear-Bericht erzeugen solche Tools „Abwärtsdruck auf die Codequalität“
- Dies ist ein weiteres Beispiel für
#enshittification und eine wichtige Lehre für DevRel-Verantwortliche
- Wenn die Community die Quelle des Wettbewerbsvorteils ist, sollte man sie nicht verärgern
14 Kommentare
enshittificationscheint wohl ein Neologismus zu sein.<Sollten Menschen und AI unterschiedlich behandelt werden?>
Hong Gildong, ein Mensch, bewegt sich im Internet, einschließlich Stack Overflow. Nehmen wir an, er liest mehrere Texte und erwirbt dadurch verschiedenes Wissen zu einem bestimmten Thema. Gildong hat die Gewohnheit, das Gelernte so zu verallgemeinern und zu strukturieren, dass es leicht verständlich ist, und es dann in einem externen Blog zu veröffentlichen. Dabei hat das nichts mit der CC-Lizenz zu tun. Es gibt auch keine Pflicht zur Namensnennung. Denn es handelt sich nicht um ein Zitat, sondern um etwas Gelerntes.
AI lernt wie Menschen mit neuronalen Netzen. Sie spricht nicht, indem sie mehrere Quellen wortwörtlich kopiert. Wie ein Mensch analysiert sie Wissen auf ihre Weise, bildet eigene Gedanken dazu und ordnet sie neu an, bevor sie darüber spricht.
Im Gegenteil: Es ist eher schwieriger, die Freiheit von AI einzuschränken und sie dazu zu bringen, die Sprache anderer wortwörtlich zu „zitieren“. Dafür RAG zu verwenden ist einfach, aber sie so zu trainieren, dass sie zitiert, ist schwieriger.
Es gibt jedoch Fälle, in denen AI etwas so wiedergibt, als würde sie die Worte anderer kopieren, auch ohne dass man ihr ausdrücklich sagt: „Sag nicht deine eigenen Gedanken, sondern zitiere den Text (Code) anderer wortwörtlich.“ Das passiert dann, wenn die betreffende Quelle extrem bekannt ist. Berühmte Shakespeare-Zeilen oder legendäre Filmsätze werden zum Beispiel so bekannt, dass sie unverändert ausgegeben werden. Auch Menschen prägen sich derart bekannte und wiederholt gehörte Inhalte wortwörtlich ein; bei AI ist es genauso. In solchen Fällen nennt AI, wie Menschen auch, in der Regel die Quelle von sich aus.
Letztlich ist fraglich, ob man für Inhalte, die durch Lernen geäußert werden, überhaupt eine CC-Lizenz und Urheberrechte beanspruchen kann. Bereits im Bereich der „Inference“ – also der Nutzung einer fertig trainierten AI und nicht des „Lernens“ – geht der weltweite Trend aus den genannten Gründen dahin, das Urheberrecht an der ursprünglichen Quelle kaum noch anzuerkennen.
Vielen Dank für den guten Kommentar.
Der Entwickler Hong Gildong mag anhand einer auf SO gesehenen Antwort "lernen" und dann einen Blogbeitrag schreiben, aber wenn der Doktorand Hong Gildong auch nur ein wenig aus der Arbeit eines anderen "zitiert", wird er die Quelle angeben. Wenn der Kontext unseres Gesprächs nicht Philosophie oder Erfindungen ist, sondern die Welt des Programmierens: Was ist dann Lernen, und was ist Zitieren?
Dass die Quelle meist angegeben wird, hat allerdings Ausnahmen.
Dieser Punkt könnte sich mit der Zeit zwar lösen, aber die Debatte begann, als Copilot den fast inverse square root-Code aus Quake praktisch unverändert übernahm (https://news.ycombinator.com/item?id=27710287). Dies fiel auf, weil der Code sehr bekannt ist; wie viel Code auf diese Weise angeblich „generiert“ wurde, der in Wirklichkeit nur Copy-and-paste ist, weiß jedoch niemand.
Wirklich eine sehr interessante Perspektive. Das war sehr aufschlussreich.
Ein interessanter Blickwinkel.
Aus koreanischer Sicht wirkt es wie ein „an einen Geschäftemacher übergebendes Community-Café“ und zugleich ein bisschen wie „Es ist ohnehin ein abgeleitetes Werk, also was soll's?“.
Trotzdem fühlt es sich für mich nicht besonders gut an, wenn meine auf SNS geposteten Fotos kommerziell genutzt werden.
> Wie ein Mensch analysiert es auf seine Weise Wissen, bildet eigenständig Gedanken heraus, ordnet sie neu und formuliert sie.
Sie scheinen zu behaupten, dass LLMs Wertevorstellungen und Gedanken haben — ist das so beabsichtigt? Das hat zwar keinen Einfluss auf Ihr Fazit, aber als Begründung dafür, auf Inferenz kein Urheberrecht anzuwenden, scheint mir das nicht besonders geeignet zu sein.
Der Prozess, einzelne Wörter zu tokenisieren und ihre Embedding-Informationen angemessen in den latenten Raum einzuordnen und zu strukturieren, lässt sich abstrakt betrachtet durchaus mit Werten und Denkweisen vergleichen.
In Bezug auf die Digitalisierung des Gehirns.
Da fällt mir jemandes Aussage ein: „Nur wertvolle Gehirne werden bewahrt werden.“
Wird SO wirklich ehrlich löschen? Oder setzen sie nur ein
Deleted-Flag und erklären später: „Wegen eines technischen Fehlers wurde es doch zum Training verwendet“?> Außerdem ist es in den USA – anders als ursprünglich in Korea oder Europa – eine Debatte um das „Recht auf Vergessenwerden“, die wohl nie zu einem Ende kommen kann...
Ich hatte dazu keinen Hintergrund und habe kurz danach gesucht: Liegt das vielleicht daran, dass die Meinungsfreiheit und das Recht auf Vergessenwerden miteinander kollidieren? Und weil es noch keinen Konsens gibt, wurde es auch noch nicht gesetzlich geregelt?
Wow, das könnte wirklich passieren.
Stack Overflow und OpenAI schließen eine Partnerschaft
Stack-Overflow-Nutzer löschen nach der Kooperation mit OpenAI vermehrt ihre Antworten