Warum ich StackOverflow Zeit und Fachwissen gegeben habe: wegen der CC-BY-SA-Lizenz

xguru · 2024-05-14T10:03:01+09:00

Gemäß der Vereinbarung zwischen Stack Overflow und OpenAI sollen alle Fragen und Antworten von Stack Overflow zum Training von Generative-AI-Modellen verwendet werden Dies soll ohne die unter der CC-BY-SA-Lizenz erforderliche Namensnennung der Urheber erfolgen Die CC-BY-SA-Lizenz verlangt zudem, dass abgeleitete Werke unter derselben Lizenz weitergegeben werden Deshalb habe ich bei Stack Overflow die Löschung meiner Daten beantragt und mein Konto geschlossen Bei Reddit habe ich dieselben Schritte unternommen Denn Daten, zu deren Erstellung ich beigetragen habe, würden in LLMs gebündelt und mir dann wieder verkauft Stack Overflow entfremdet damit auf einen Schlag die Community, die eine zentrale Quelle seines Wettbewerbsvorteils ist Früher wurde der psychologische Vertrag erfüllt: Man half einander, wenn man helfen konnte, in der Erwartung, dass andere in Zukunft ebenfalls helfen würden Jetzt ist es kein Austausch mehr, sondern #enshittification Programmierer erleben nun Ähnliches wie Künstler und Copywriter: Ihre Werke wurden in die Entwicklung von GenAI-Lösungen hineingezogen Falls OpenAI wie GitHubs Copilot ein LLM baut, das Code erzeugt, stellt sich die Frage, wo man Hilfe für Bugs bekommen soll, die durch das generierte AI-Modell eingeführt wurden Laut einem aktuellen GitClear-Bericht erzeugen solche Tools „Abwärtsdruck auf die Codequalität“ Dies ist ein weiteres Beispiel für #enshittification und eine wichtige Lehre für DevRel-Verantwortliche Wenn die Community die Quelle des Wettbewerbsvorteils ist, sollte man sie nicht verärgern

(aus.social)

20 Punkte von xguru 2024-05-14 | 14 Kommentare | Auf WhatsApp teilen

Gemäß der Vereinbarung zwischen Stack Overflow und OpenAI sollen alle Fragen und Antworten von Stack Overflow zum Training von Generative-AI-Modellen verwendet werden
- Dies soll ohne die unter der CC-BY-SA-Lizenz erforderliche Namensnennung der Urheber erfolgen
- Die CC-BY-SA-Lizenz verlangt zudem, dass abgeleitete Werke unter derselben Lizenz weitergegeben werden
Deshalb habe ich bei Stack Overflow die Löschung meiner Daten beantragt und mein Konto geschlossen
- Bei Reddit habe ich dieselben Schritte unternommen
- Denn Daten, zu deren Erstellung ich beigetragen habe, würden in LLMs gebündelt und mir dann wieder verkauft
Stack Overflow entfremdet damit auf einen Schlag die Community, die eine zentrale Quelle seines Wettbewerbsvorteils ist
- Früher wurde der psychologische Vertrag erfüllt: Man half einander, wenn man helfen konnte, in der Erwartung, dass andere in Zukunft ebenfalls helfen würden
- Jetzt ist es kein Austausch mehr, sondern #enshittification
Programmierer erleben nun Ähnliches wie Künstler und Copywriter: Ihre Werke wurden in die Entwicklung von GenAI-Lösungen hineingezogen
Falls OpenAI wie GitHubs Copilot ein LLM baut, das Code erzeugt, stellt sich die Frage, wo man Hilfe für Bugs bekommen soll, die durch das generierte AI-Modell eingeführt wurden
- Laut einem aktuellen GitClear-Bericht erzeugen solche Tools „Abwärtsdruck auf die Codequalität“
Dies ist ein weiteres Beispiel für #enshittification und eine wichtige Lehre für DevRel-Verantwortliche
- Wenn die Community die Quelle des Wettbewerbsvorteils ist, sollte man sie nicht verärgern

14 Kommentare

firea32 2024-05-20

enshittification scheint wohl ein Neologismus zu sein.

iaesiiii 2024-05-16

<Sollten Menschen und AI unterschiedlich behandelt werden?>
Hong Gildong, ein Mensch, bewegt sich im Internet, einschließlich Stack Overflow. Nehmen wir an, er liest mehrere Texte und erwirbt dadurch verschiedenes Wissen zu einem bestimmten Thema. Gildong hat die Gewohnheit, das Gelernte so zu verallgemeinern und zu strukturieren, dass es leicht verständlich ist, und es dann in einem externen Blog zu veröffentlichen. Dabei hat das nichts mit der CC-Lizenz zu tun. Es gibt auch keine Pflicht zur Namensnennung. Denn es handelt sich nicht um ein Zitat, sondern um etwas Gelerntes.

AI lernt wie Menschen mit neuronalen Netzen. Sie spricht nicht, indem sie mehrere Quellen wortwörtlich kopiert. Wie ein Mensch analysiert sie Wissen auf ihre Weise, bildet eigene Gedanken dazu und ordnet sie neu an, bevor sie darüber spricht.

Im Gegenteil: Es ist eher schwieriger, die Freiheit von AI einzuschränken und sie dazu zu bringen, die Sprache anderer wortwörtlich zu „zitieren“. Dafür RAG zu verwenden ist einfach, aber sie so zu trainieren, dass sie zitiert, ist schwieriger.

Es gibt jedoch Fälle, in denen AI etwas so wiedergibt, als würde sie die Worte anderer kopieren, auch ohne dass man ihr ausdrücklich sagt: „Sag nicht deine eigenen Gedanken, sondern zitiere den Text (Code) anderer wortwörtlich.“ Das passiert dann, wenn die betreffende Quelle extrem bekannt ist. Berühmte Shakespeare-Zeilen oder legendäre Filmsätze werden zum Beispiel so bekannt, dass sie unverändert ausgegeben werden. Auch Menschen prägen sich derart bekannte und wiederholt gehörte Inhalte wortwörtlich ein; bei AI ist es genauso. In solchen Fällen nennt AI, wie Menschen auch, in der Regel die Quelle von sich aus.

Letztlich ist fraglich, ob man für Inhalte, die durch Lernen geäußert werden, überhaupt eine CC-Lizenz und Urheberrechte beanspruchen kann. Bereits im Bereich der „Inference“ – also der Nutzung einer fertig trainierten AI und nicht des „Lernens“ – geht der weltweite Trend aus den genannten Gründen dahin, das Urheberrecht an der ursprünglichen Quelle kaum noch anzuerkennen.

roxie 2024-05-26

Vielen Dank für den guten Kommentar.

Der Entwickler Hong Gildong mag anhand einer auf SO gesehenen Antwort "lernen" und dann einen Blogbeitrag schreiben, aber wenn der Doktorand Hong Gildong auch nur ein wenig aus der Arbeit eines anderen "zitiert", wird er die Quelle angeben. Wenn der Kontext unseres Gesprächs nicht Philosophie oder Erfindungen ist, sondern die Welt des Programmierens: Was ist dann Lernen, und was ist Zitieren?

bobcat 2024-05-17

Dass die Quelle meist angegeben wird, hat allerdings Ausnahmen.
Dieser Punkt könnte sich mit der Zeit zwar lösen, aber die Debatte begann, als Copilot den fast inverse square root-Code aus Quake praktisch unverändert übernahm (https://news.ycombinator.com/item?id=27710287). Dies fiel auf, weil der Code sehr bekannt ist; wie viel Code auf diese Weise angeblich „generiert“ wurde, der in Wirklichkeit nur Copy-and-paste ist, weiß jedoch niemand.

cosine20 2024-05-16

Wirklich eine sehr interessante Perspektive. Das war sehr aufschlussreich.

ng0301 2024-05-16

Ein interessanter Blickwinkel.
Aus koreanischer Sicht wirkt es wie ein „an einen Geschäftemacher übergebendes Community-Café“ und zugleich ein bisschen wie „Es ist ohnehin ein abgeleitetes Werk, also was soll's?“.
Trotzdem fühlt es sich für mich nicht besonders gut an, wenn meine auf SNS geposteten Fotos kommerziell genutzt werden.

savvykang 2024-05-16

Wie ein Mensch analysiert es auf seine Weise Wissen, bildet eigenständig Gedanken heraus, ordnet sie neu und formuliert sie.

Sie scheinen zu behaupten, dass LLMs Wertevorstellungen und Gedanken haben — ist das so beabsichtigt? Das hat zwar keinen Einfluss auf Ihr Fazit, aber als Begründung dafür, auf Inferenz kein Urheberrecht anzuwenden, scheint mir das nicht besonders geeignet zu sein.

cosine20 2024-05-16

Der Prozess, einzelne Wörter zu tokenisieren und ihre Embedding-Informationen angemessen in den latenten Raum einzuordnen und zu strukturieren, lässt sich abstrakt betrachtet durchaus mit Werten und Denkweisen vergleichen.

halfenif 2024-05-14

In Bezug auf die Digitalisierung des Gehirns.

Da fällt mir jemandes Aussage ein: „Nur wertvolle Gehirne werden bewahrt werden.“

secret3056 2024-05-14

Wird SO wirklich ehrlich löschen? Oder setzen sie nur ein Deleted-Flag und erklären später: „Wegen eines technischen Fehlers wurde es doch zum Training verwendet“?

2024-05-14

[Dieser Kommentar wurde ausgeblendet.]

savvykang 2024-05-14

Außerdem ist es in den USA – anders als ursprünglich in Korea oder Europa – eine Debatte um das „Recht auf Vergessenwerden“, die wohl nie zu einem Ende kommen kann...

Ich hatte dazu keinen Hintergrund und habe kurz danach gesucht: Liegt das vielleicht daran, dass die Meinungsfreiheit und das Recht auf Vergessenwerden miteinander kollidieren? Und weil es noch keinen Konsens gibt, wurde es auch noch nicht gesetzlich geregelt?

jayuloy 2024-05-14

Wow, das könnte wirklich passieren.

xguru 2024-05-14

Stack Overflow und OpenAI schließen eine Partnerschaft
Stack-Overflow-Nutzer löschen nach der Kooperation mit OpenAI vermehrt ihre Antworten

Warum ich StackOverflow Zeit und Fachwissen gegeben habe: wegen der CC-BY-SA-Lizenz

Verwandte Beiträge

14 Kommentare