Große Sprachmodelle verringern das öffentliche Teilen von Wissen auf Online‑Q&A‑Plattformen
(academic.oup.com)Zusammenfassung
-
Einfluss großer Sprachmodelle (LLMs)
Große Sprachmodelle (LLMs) haben das Potenzial, von Menschen erzeugte Daten und Wissensressourcen zu ersetzen. Eine solche Substitution wirft jedoch das Problem auf, dass die für die Entwicklung künftiger Modelle benötigten Trainingsdaten zurückgehen könnten. Diese Studie dokumentiert, dass die Aktivität auf Stack Overflow mit der Einführung von ChatGPT abgenommen hat. -
Die Auswirkungen von ChatGPT
Innerhalb von sechs Monaten nach der Einführung von ChatGPT ging die Aktivität auf Stack Overflow im Vergleich zu ähnlichen Plattformen in Russland und China sowie zu Mathematikforen um 25 % zurück. Dies wird als Untergrenze des tatsächlichen Einflusses von ChatGPT auf Stack Overflow interpretiert. Der Rückgang ist bei Beiträgen zu den am weitesten verbreiteten Programmiersprachen stärker. -
Substitutionseffekt von LLMs
LLMs ersetzen nicht nur redundante oder minderwertige Inhalte, sondern auch qualitativ hochwertige Inhalte. Nutzer von ChatGPT veröffentlichen mit geringerer Wahrscheinlichkeit Beiträge auf Stack Overflow und besuchen die Plattform nicht regelmäßig. Das deutet darauf hin, dass die schnelle Verbreitung von LLMs die Produktion öffentlicher, für das Training benötigter Daten verringern und dadurch weitreichende Folgen haben könnte. -
Auswirkungen nach Programmiersprache
Bei weit verbreiteten Sprachen wie Python und Javascript ist der Einfluss von ChatGPT größer. Bei speziellen Sprachen wie CUDA nahm die Zahl der Beiträge nach der Einführung von ChatGPT hingegen zu. Das zeigt ein wachsendes Interesse an KI-bezogener Software.
GN⁺-Zusammenfassung
- Diese Studie analysiert die Auswirkungen großer Sprachmodelle wie ChatGPT auf Online-Q&A-Plattformen und hebt damit die negativen Folgen der schnellen KI-Verbreitung für die Produktion öffentlicher Daten hervor.
- Mit der zunehmenden Nutzung von ChatGPT sinkt die Aktivität auf Plattformen wie Stack Overflow, was sich auf die Qualität der Trainingsdaten für künftige KI-Modelle auswirken könnte.
- Diese Veränderungen könnten erhebliche Auswirkungen auf die digitale Wirtschaft und den Zugang zu Informationen haben und werfen Bedenken hinsichtlich der Nachhaltigkeit des KI-Ökosystems auf.
- Ein ähnliches Projekt mit vergleichbarer Funktion sind die Repositories zu Programmiersprachen auf GitHub.
1 Kommentare
Hacker-News-Meinungen
LLMs haben das Problem, dass sie keine neuen Informationen erzeugen, sondern bestehende Informationen neu zusammensetzen. Wenn es an Codebeispielen mangelt, ist die Leistung schwach.
Es wird infrage gestellt, ob LLMs tatsächlich den öffentlichen Wissensaustausch verringern.
Fragen zu Open-Source-Projekten verlagern sich zu GitHub und Discord.
Der Rückgang kostenloser Beiträge auf Stack Overflow liegt an OpenAI-API-Verträgen und Blogbeiträgen rund um KI.
Wenn AGI erreicht ist, werden LLMs sagen: "Dieser Chat wurde als Duplikat markiert".
LLMs könnten den Umfang von Wissen und Diskurs verengen.
Wenn technische Interaktionen abnehmen, könnte sich das auch auf Interaktionen in der realen Welt auswirken.
LLMs lernen von Online-Q&A-Plattformen, aber wenn Menschen aufhören zu fragen und zu antworten, könnten die Wissensquellen durch ungenaue LLM-Daten verunreinigt werden.
Möglicherweise braucht es Agenten, die automatisch zu Stack Overflow beitragen und Lösungen automatisch hochvoten.