Werden große Sprachmodelle zu einer Bedrohung für digitale öffentliche Güter?

kuroneko · 2023-07-18T15:33:20+09:00

Eine Analyse der Auswirkungen von LLMs auf Webinhalte anhand der Stack-Overflow-Aktivität nach ChatGPT. Bei Stack Overflow ist die Aktivität seit ChatGPT um 16 % bis 25 % zurückgegangen. Je verbreiteter und bekannter eine Sprache ist, desto stärker fällt der Rückgang aus. Dies sind Werte im Vergleich zu chinesischen und russischen Websites, auf denen ChatGPT blockiert ist, sowie zu mathematikbezogenen Websites, die sich schwerer durch KI ersetzen lassen. Die Zahl der Stimmen für Beiträge hat sich nicht verändert, daher kann man nicht davon ausgehen, dass die Qualität der Antworten gestiegen ist. Das bedeutet, dass seit ChatGPT die Menge an von Menschen erzeugten Daten zurückgeht. Dadurch können verschiedene Probleme entstehen. Die Menge und Qualität der Informationen im gesamten Internet könnten sinken, und auch die Effizienz von KI-Trainingsdaten könnte abnehmen. Da die Daten von ChatGPT exklusiv im Besitz von OpenAI sind, könnte sich die technologische Kluft zwischen Unternehmen weiter vergrößern. Der menschliche Erkundungsraum könnte sich verengen, und die Entwicklung neuer Produkte oder Sprachen, die KI noch nicht gelernt hat, könnte gebremst werden. Gesellschaftliche Unterschiede könnten sich weiter verschärfen, etwa zwischen Ländern oder Einkommensgruppen, die nur schwer von den Vorteilen von LLMs profitieren können. Eine Frage, über die man für ein nachhaltiges Web- und KI-Ökosystem nachdenken sollte.

(arxiv.org)

11 Punkte von kuroneko 2023-07-18 | 5 Kommentare | Auf WhatsApp teilen

Eine Analyse der Auswirkungen von LLMs auf Webinhalte anhand der Stack-Overflow-Aktivität nach ChatGPT.
Bei Stack Overflow ist die Aktivität seit ChatGPT um 16 % bis 25 % zurückgegangen.
- Je verbreiteter und bekannter eine Sprache ist, desto stärker fällt der Rückgang aus.
- Dies sind Werte im Vergleich zu chinesischen und russischen Websites, auf denen ChatGPT blockiert ist, sowie zu mathematikbezogenen Websites, die sich schwerer durch KI ersetzen lassen.
Die Zahl der Stimmen für Beiträge hat sich nicht verändert, daher kann man nicht davon ausgehen, dass die Qualität der Antworten gestiegen ist.
Das bedeutet, dass seit ChatGPT die Menge an von Menschen erzeugten Daten zurückgeht.
Dadurch können verschiedene Probleme entstehen.
- Die Menge und Qualität der Informationen im gesamten Internet könnten sinken, und auch die Effizienz von KI-Trainingsdaten könnte abnehmen.
- Da die Daten von ChatGPT exklusiv im Besitz von OpenAI sind, könnte sich die technologische Kluft zwischen Unternehmen weiter vergrößern.
- Der menschliche Erkundungsraum könnte sich verengen, und die Entwicklung neuer Produkte oder Sprachen, die KI noch nicht gelernt hat, könnte gebremst werden.
- Gesellschaftliche Unterschiede könnten sich weiter verschärfen, etwa zwischen Ländern oder Einkommensgruppen, die nur schwer von den Vorteilen von LLMs profitieren können.
Eine Frage, über die man für ein nachhaltiges Web- und KI-Ökosystem nachdenken sollte.

5 Kommentare

soupdog 2023-07-25

Es scheint, als würden Sprachmodelle die Kommunikation übernehmen, die früher auf Stack Overflow stattfand, und dadurch nimmt das Wissen, das Menschen im direkten Austausch ins Internet stellen, allmählich ab. Wenn man die Metapher von Kathedrale und Basar bemüht, scheint es im genauen Sinne zu einer von jemandem monopolisierten Kathedrale zu werden.

laeyoung 2023-07-19

Was mir persönlich am meisten Sorgen macht und was ich selbst erlebt habe, ist das, was man in der Ökonomie als „Schlechtes verdrängt Gutes“ bezeichnet.

Bevor ChatGPT herauskam, reichte es noch, nach dem Stand von Ende letzten Jahres ungefähr 8 Beiträge im Blog zu schreiben, um für Google-Werbung zugelassen zu werden. Jetzt wird die Freigabe selbst dann mit der Begründung „zu wenig Inhalte“ oder „ungültige Inhalte“ verweigert, wenn man doppelt so viel schreibt. Und das, obwohl alle Texte von Hand geschrieben sind.

Weil es immer mehr automatisch per KI erzeugte Blogs gibt, sind die Kriterien für die AdSense-Freigabe strenger geworden, und man weiß nicht, wo das endet. Deshalb habe ich inzwischen aufgegeben, für meinen Blog, in dem ich fast drei Monate lang Filmkritiken geschrieben habe, eine AdSense-Freigabe zu bekommen.

Da die Prüfenden nicht unterscheiden können, ob es sich um gutes Material handelt (von Menschen geschriebene Inhalte) oder um schlechtes Material (mit KI erstellt oder mit KI erstellt und anschließend bearbeitet), werden sie wohl den Weg wählen, die Maßstäbe immer weiter anzuheben. Am Ende könnten wir dann wieder so ein Bild sehen wie Anfang dieses Jahres, als in den Google-Suchergebnissen vor allem automatisch erzeugte Webseiten ganz oben erschienen.

cosine20 2023-07-19

Ich sehe das eher positiv.
Traditionelle Informationssuche erforderte zwei Dinge: „die Fähigkeit, passende Suchbegriffe in die Suchmaschine einzugeben“ und „die Fähigkeit, aus den Suchergebnissen das herauszufiltern, was ich eigentlich wollte“. Die dadurch entstehende Ermüdung war beträchtlich.
Man will eigentlich nur Code für eine einfache Aufgabe finden, klickt sich dann aber in einen StackOverflow-Beitrag aus den Suchergebnissen hinein und findet dort drei oder vier Antwortcodes. Einer davon bekommt Downvotes, weil er auf einer alten Sprachspezifikation basiert und unnötig kompliziert ist, ein anderer ist zwar als Lösung markiert, funktioniert nach einem Versions-Update aber nicht mehr richtig, und in den Kommentaren beschweren sich die Leute eifrig über die Unannehmlichkeiten und tüfteln untereinander an Workarounds. Solche Dinge kamen öfter vor, als man denkt.

Letztlich hat sich im großen Zusammenhang seit dem Informationszeitalter nicht geändert, dass man „in der Informationsflut die Informationen auswählen können muss, die man wirklich will“. Aber ich denke, dass die Zahl der Optionen, die uns zur Verfügung stehen, zu groß geworden ist, sodass das Abwägen lästig und ermüdend wird.

In diesem Sinne denke ich, dass gut trainierte große Sprachmodelle von sehr trivialen Informationen, nach denen Menschen häufig suchen, bis hin zu einem gewissen Grad auch höherwertige Informationen mit einer vernünftigen UX bereitstellen können und dadurch eher eine gewisse Arbeitsteilung ermöglichen.
Fragen-und-Antworten-Dienste wie StackOverflow übernehmen dann sehr aktuelle Informationen, bei denen es mit LLMs schwer ist, passende Antworten zu bekommen, oder komplexe Fragen, in denen viele unterschiedliche Kontexte auf verschiedenste Weise miteinander verflochten sind.

Allerdings bleibt aus meiner Sicht die Aufgabe bestehen, ob LLMs tatsächlich in der Lage sind, ausreichend präzise Informationen auf Grundlage klarer Belege auszuwählen und der breiten Öffentlichkeit bereitzustellen.

kuroneko 2023-07-18

HN-Thread

Natürlich ist das eine eher begrenzte Untersuchung, die nur einige Websites betrachtet, daher könnte sie stark verzerrt sein,
aber der Punkt, dass sich die technologische Kluft am Ende auf verschiedene Weise vergrößern könnte, wirkt schon bedenklich.

In den Kommentaren schrieb jemand: „KI führt zu einer Konzentration von Wohlstand, indem sie das Geld, das durch den Wert von von Menschen erstellten Inhalten entsteht, zu KI-Unternehmen umleitet“,
das finde ich durchaus nachvollziehbar.

jujumilk3 2023-07-18

Huch, Emojis lassen sich wohl nicht anhängen. Sehe ich genauso.

Werden große Sprachmodelle zu einer Bedrohung für digitale öffentliche Güter?

Verwandte Beiträge

5 Kommentare