2 Punkte von GN⁺ 2024-10-14 | 1 Kommentare | Auf WhatsApp teilen

Zusammenfassung

  • Einfluss großer Sprachmodelle (LLMs)
    Große Sprachmodelle (LLMs) haben das Potenzial, von Menschen erzeugte Daten und Wissensressourcen zu ersetzen. Eine solche Substitution wirft jedoch das Problem auf, dass die für die Entwicklung künftiger Modelle benötigten Trainingsdaten zurückgehen könnten. Diese Studie dokumentiert, dass die Aktivität auf Stack Overflow mit der Einführung von ChatGPT abgenommen hat.

  • Die Auswirkungen von ChatGPT
    Innerhalb von sechs Monaten nach der Einführung von ChatGPT ging die Aktivität auf Stack Overflow im Vergleich zu ähnlichen Plattformen in Russland und China sowie zu Mathematikforen um 25 % zurück. Dies wird als Untergrenze des tatsächlichen Einflusses von ChatGPT auf Stack Overflow interpretiert. Der Rückgang ist bei Beiträgen zu den am weitesten verbreiteten Programmiersprachen stärker.

  • Substitutionseffekt von LLMs
    LLMs ersetzen nicht nur redundante oder minderwertige Inhalte, sondern auch qualitativ hochwertige Inhalte. Nutzer von ChatGPT veröffentlichen mit geringerer Wahrscheinlichkeit Beiträge auf Stack Overflow und besuchen die Plattform nicht regelmäßig. Das deutet darauf hin, dass die schnelle Verbreitung von LLMs die Produktion öffentlicher, für das Training benötigter Daten verringern und dadurch weitreichende Folgen haben könnte.

  • Auswirkungen nach Programmiersprache
    Bei weit verbreiteten Sprachen wie Python und Javascript ist der Einfluss von ChatGPT größer. Bei speziellen Sprachen wie CUDA nahm die Zahl der Beiträge nach der Einführung von ChatGPT hingegen zu. Das zeigt ein wachsendes Interesse an KI-bezogener Software.

GN⁺-Zusammenfassung

  • Diese Studie analysiert die Auswirkungen großer Sprachmodelle wie ChatGPT auf Online-Q&A-Plattformen und hebt damit die negativen Folgen der schnellen KI-Verbreitung für die Produktion öffentlicher Daten hervor.
  • Mit der zunehmenden Nutzung von ChatGPT sinkt die Aktivität auf Plattformen wie Stack Overflow, was sich auf die Qualität der Trainingsdaten für künftige KI-Modelle auswirken könnte.
  • Diese Veränderungen könnten erhebliche Auswirkungen auf die digitale Wirtschaft und den Zugang zu Informationen haben und werfen Bedenken hinsichtlich der Nachhaltigkeit des KI-Ökosystems auf.
  • Ein ähnliches Projekt mit vergleichbarer Funktion sind die Repositories zu Programmiersprachen auf GitHub.

1 Kommentare

 
GN⁺ 2024-10-14
Hacker-News-Kommentare
  • Letztlich geht es darum, worauf sich LLMs stützen sollen. Sie erzeugen keine neuen Informationen, sondern geben bestehende wieder und kombinieren sie. Deshalb bricht die Leistung bei Code stark ein, für den es nicht genug öffentliche Beispiele oder Antworten auf Stack Overflow/Reddit gibt.

    • Zur Einordnung: GPT o1 hat dabei geholfen, einen ziemlich komplexen Anwendungsfall von epub.js zu lösen, einer Open-Source-Bibliothek mit undurchsichtiger Dokumentation und wenigen öffentlichen Beispielen.
      Es brauchte ein paar Hin-und-Her-Runden, bis eine funktionierende Lösung herauskam, aber am Ende hat es geklappt. Daher frage ich mich, ob die AI einfach obskures Material aus dem Internet gut gefunden und verarbeitet hat oder ob sie die schwierige Dokumentation besser verstanden hat als ich. Falls Letzteres stimmt, könnte der Bedarf an öffentlichen Beispielen sinken.
    • Ein interessanter Nebeneffekt könnte sein, dass Leute nicht mehr blindlings neue Programmiersprachen und Frameworks erfinden, nur weil das LLM sie nicht kennt.
      Schon jetzt gibt es eine Tendenz hin zu Technologien, mit denen LLMs gut umgehen können. Der Vorteil, 90 % des Problems vom LLM lösen zu lassen, ist größer als der Nutzen einer nur geringfügig besseren Sprache oder eines etwas besseren Frameworks. Ich mag Python als Sprache eigentlich ziemlich wenig, aber schwer zu bestreiten ist, dass LLMs in Python viel besser sind als in vielen anderen Sprachen.
    • Anders als die Aussage, sie würden „keine neuen Informationen erzeugen“, ist der Großteil des Wissensaustauschs auf Online-Q&A-Plattformen keine kreative Tätigkeit. Außer vielleicht den Entwicklern des Systems selbst stellen am Ende alle immer wieder dieselben Fragen zu denselben Problemen, und ein großer Teil davon ersetzt im Grunde Suchplattformen.
    • Worauf sich LLMs stützen können, ist die offizielle Dokumentation.
      Ich erfinde die Zahl, aber sie lässt sich verteidigen: 90 % der Informationen auf Stack Overflow sind Wiederholungen von etwas, das irgendwo in einem Handbuch steht. Das Problem ist, dass die gesuchte Information in der relevanten Doku oft schwer zu finden ist und sich selbst dann schwer lesen lässt. LLMs sind jedoch sehr gut darin, Dokumentation zu lesen und zu verstehen.
    • LLMs springen halbwegs zwischen alter und neuer Vorgehensweise hin und her, und je größer der LLM-Spaghetti-Code wird, desto weniger gelingt es ihnen, präzise Funktionen hinzuzufügen, ohne bestehende Logik zu zerstören.
      Technikdemos, in denen mit ein oder zwei Prompts sofort eine ganze App gebaut wird, sind wacklig. Wenn man nicht weiß, was man tut, ändern sie beim fortlaufenden Hinzufügen von Features ständig die Art der API-Aufrufe, das State-Management und die CSS-Bibliothek. Zum Beispiel schlagen sie in einer Datei, in der schon drei native fetch-Aufrufe stehen, plötzlich ohne erkennbaren Grund vor, axios zu installieren und zu verwenden.
      Manchmal löschen sie auch Teile wie {/* rest of your functions here*}.
      Nach einer Weile scheint man sie nur noch sicher für langweilige Arbeiten wie Schleifen oder switch einsetzen zu können, daher wirken Entwicklerjobs vorerst ziemlich sicher.
  • Das Paper sagt, LLMs würden den öffentlichen Wissensaustausch verringern, und der Effekt bestehe nicht nur darin, doppelte, minderwertige oder Anfänger-Inhalte zu ersetzen. Die Behauptung ist aber schwach, und der Effekt ist nicht so reißerisch, wie der Titel vermuten lässt.
    Erstens zeigt es für den vorgeschlagenen Test, dass LLMs minderwertige Beiträge ersetzen, nur Figure 3, aber keine Regressionsresultate. Dagegen berichtet es Tests zu einer willkürlichen Einteilung der Nutzererfahrung nach dem Motto: Wer zehnmal gepostet hat, ist erfahren. Warum man den Test nach Beitragsqualität auslässt, aber Resultate für willkürliche „Erfahrungs“-Buckets zeigt, ist fragwürdig.
    Zweitens zeigt Figure 3 selbst Trendänderungen bei guten und neutralen Fragen. Gute Fragen befanden sich in einem Abwärtstrend und wurden dann flach, neutrale Fragen in einem Aufwärtstrend und wurden dann ebenfalls flach. Schlechte Fragen gingen weiter zurück und zeigen keine erkennbare Trendänderung. Das deutet eher auf das Gegenteil hin, nämlich dass LLMs minderwertige Inhalte ersetzen.
    Die Schlussfolgerung hätte stärkere Belege gebraucht, und die Studie belohnt ihre sorgfältige Arbeit nicht mit überraschenden Ergebnissen. Deshalb wirkt es so, als seien ein reißerischer Titel und teils ausgelassene Resultate herausgekommen.

    • Das ist zwar nicht genau das Thema dieses Beitrags, aber vor einiger Zeit hat jemand auf HN ein ähnliches Phänomen gut beschrieben: Das Internet balkanisiert sich. Kein neuer Gedanke, aber mit Fokus auf Online-Communitys passt es besonders gut.
      Menschen teilen Informationen nicht mehr so frei wie früher in öffentlichen Foren, sondern ziehen sich auf Dienste wie Discord zurück, graben einen Burggraben und ziehen die Zugbrücke hoch. Schwer, ihnen das vorzuwerfen. Viele Foren und soziale Medien werden zunehmend feindselig gestaltet und stärker monetarisiert, und AI/LLMs crawlen alles, saugen es auf, stellen es hinter Bezahlschranken und zerstören die Chance, dass die Originalquelle noch über die Suche gefunden wird. Engagement-Algorithmen fördern Gift und Streit. HN ist heute eine seltene Ausnahme.
      Am Ende versammeln sich Menschen mit bestimmten Interessen oder bestimmtem Wissen in privaten Communitys und reden nur noch untereinander, wodurch es für Neulinge schwerer wird hineinzukommen.
    • Wenn LLMs Coder gut genug unterstützen, sodass Leute weniger Zeit auf Stack Overflow verbringen und stattdessen mehr Open-Source-Code pushen, könnte das für alle wertvoller sein.
  • Es ist nur natürlich, dass Menschen weniger kostenlos zu Stack Overflow beitragen. Stack Overflow verkauft seine Mitwirkenden mit dem OpenAI-API-Vertrag und zahllosen überdrehten „AI“-Blogposts.

    • Ich glaube nicht, dass das der Hauptgrund ist. Es ist den Leuten meist ziemlich egal, wenn jemand das verkauft, was sie auf einer Plattform geschaffen haben. Große soziale Medien wie Facebook machen das seit Jahren und werden trotzdem weiter genutzt. Zu Stack Overflow kommt man, um Antworten zu bekommen. Warum sollte es einen später kümmern, wenn jemand mit diesen Antworten ein LLM trainiert?
    • Das sieht eher nach einem Rückgang bei den Fragen als bei den Antworten aus.
    • Der Analysezeitraum geht nur bis Mai 2023 und liegt damit ein Jahr vor dem OpenAI-Vertrag. Dieser Vertrag hat also nichts mit den Ergebnissen des Papers zu tun.
    • Es kommt noch zu einem langfristigen Trend hinzu, der schon etwa seit 2014 läuft. Dabei wuchs auch der Frust über die Qualität und Art der Fragen weiter, also über Fragen, die weder den Richtlinien der Seite folgen noch erkennen lassen, dass sich die Fragenden bemüht haben zu verstehen, wie die Seite funktionieren soll.
  • Meiner persönlichen Erfahrung nach sind viele Fragen zu Open-Source-Projekten zu GitHub und Discord abgewandert; neben LLMs gibt es also auch eine Plattformverschiebung.
    Bei allgemeineren Programmierproblemen beginne ich eher mit Gemini. Es antwortet direkt in den Begriffen meines Problems, sodass ich nicht mehrere Seiten durchsuchen und zusammensetzen muss, oder es ist zwar falsch, gibt mir aber bessere Anhaltspunkte für die Suche. So spare ich mir das mehrfache Anklicken von Stack-Overflow-Posts, deren Titel ähnlich sind, deren Inhalt sich aber in entscheidenden Punkten unterscheidet.

    • 2022: Discord ist schlecht, weil es nicht von Suchmaschinen indexiert wird.
      2024: Discord ist gut, weil es nicht von AI-Müllgeneratoren indexiert wird.
    • Dass Fragen zu Open-Source-Projekten zu GitHub und Discord gewandert sind, entspricht exakt meiner Erfahrung. Außerdem war es gut, direkt mit den Maintainern zu sprechen.
  • Ich abonniere mehrere technische Subreddits und habe in den letzten zwei Jahren oft gesehen, wie dieselbe Frage in mehreren Subreddits verstreut gepostet wird. Die Accounts wurden entweder gerade erst erstellt oder alle Antworten wirken wie automatisch generierte Standard-Einzeiler.
    Ich gehe davon aus, dass es Bot-Accounts für AI-Training sind, und antworte erst, nachdem ich geprüft habe, ob tatsächlich ein Mensch fragt, bevor ich lange technische Erklärungen schreibe.

    • In gewisser Weise hilft es dem Training natürlich doch.
      Am Ende könnten die Erfolge der „Geschenkkultur“ über das WWW, von „Wissen sollte frei sein“, F/OSS und Ähnlichem dazu führen, dass die gesamte Hacker-Ethik im Sinne Stallmans in einem schlechten Licht erscheint.
      Wir arbeiten alle für IBM^H^H^HOpenAI, aber diesmal gibt es nichts wie die GPL, das uns den Rücken stärkt.
  • Wenn das ein Déjà-vu auslöst: Das wurde bereits im Juli 2023 von Kritikerinnen und Kritikern prominent thematisiert, und zwar unter dem Titel „Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow“: https://arxiv.org/abs/2307.07367
    Wurde auch auf HN diskutiert: https://news.ycombinator.com/item?id=36763718

  • Letztlich werden Large Language Models das Ende von Open Source sein. Das muss man akzeptieren.
    Large Language Models werden dafür verwendet, geistiges Eigentum zu aggregieren und zu interpolieren. In diesem Prozess gibt es keine Anerkennung für Urheber oder Herkunft, keine Quellenangabe und keine Zitate. Das für das Modelltraining verwendete geistige Eigentum wird faktisch zu anonymem Gemeingut.
    Die sozialen Belohnungen, die oft Motivation für Open-Source-Arbeit sind, etwa Anerkennung und Respekt, werden geschwächt. So wird es enden.

    • Warum sollte man nicht mit LLMs noch mehr Open Source schreiben?
      Die Kosten für Beiträge sinken dramatisch. Für 100 Dollar bekommt man zum Beispiel 200 Millionen GPT-3.5-Tokens, also rechnerisch 10.000 Tokens für die Entwicklung jeder einzelnen Zeile in einem Projekt mit 20.000 Zeilen.
      Das ist ein mittelgroßes Projekt, das mit einer einzigen Spende und einem halben Nachmittag Workflow-Framework-Management möglich ist.
    • Ich verstehe diese Sichtweise nicht.
      Wenn LLMs das Ende von Open Source sein sollen, dann aus genau dem genannten Grund: weil sie geistiges Eigentum aggregieren und interpolieren und dabei das trainierte geistige Eigentum ohne Urheber, Herkunft oder Quellenangabe zu anonymem Gemeingut machen.
      Wenn das aber stimmt und weiterhin erlaubt bleibt, dann ist jedes geistige Eigentum, das auf Urheberrecht beruht, in gleicher Weise bedroht. Das ist kein Problem, das nur Open Source betrifft. Falls gemeint ist, dass nicht quelloffene Werke geschützt bleiben, wenn man den „Source“ oder das entsprechende Äquivalent geheim hält, dann ist mir nicht klar, wie man mit einem Blockbuster-Film, den niemand sehen darf, oder einem Roman, den niemand lesen darf, Geld verdienen soll.
      Anerkennung und Respekt sind nicht die einzigen Motive für Open-Source-Arbeit, und ich bezweifle sogar, dass sie die häufigsten sind. Solche Belohnungen entsprechen eher dem Bild, das Akteure zeichnen möchten, die Open Source in ein soziales Netzwerk oder ein Spiel verwandeln wollen.
      Es ist auch unklar, warum genau diese Dinge verschwinden sollten. Die Erfindung der Kamera hat schließlich nicht die künstlerische Freude von Porträtmalern ausgelöscht. Rein finanzielle Motive könnten beeinträchtigt werden, aber das ist weit entfernt von etwas, das Open Source als besondere, einzigartige Motivation auszeichnet.
    • Nein, es wird lediglich bereits hinreichend nischige Open-Source-Projekte noch nischiger machen.
  • Es ist ein verlorener Kampf, menschlich erzeugte Textkorpora, die für das Training von LLMs wertvoll geworden sind, als Walled Gardens geschlossen zu halten. Wahrscheinlich ist das Pferd bereits aus dem Stall
    Ich halte das allerdings für ein vorübergehendes Problem. LLMs sind eine Übergangstechnologie. Irgendwann wird es nicht mehr nötig sein, ganz Reddit und alles, was je geschrieben wurde, als Ganzes zu trainieren. Diese statistischen Modelle haben offensichtliche Grenzen, und Menschen lernen nicht so. Man hat im Lauf des Lebens vielleicht Hunderte, vielleicht Tausende Bücher gelesen, aber keine Million, und das muss man auch nicht
    Interessant ist, dass dieses Thema, obwohl es offensichtlich Diebstahl ist, als Diebstahl von den Sites oder Firmen behandelt wird, die die Daten „besitzen“, und nicht als Diebstahl von den Nutzern, die sie erstellt haben. Sites mit nutzergenerierten Inhalten sind letztlich zum Scheitern verurteilt. Ihre Anreize laufen denen der Nutzer zuwider, und endlose Profitjagd wird zwangsläufig dazu führen, dass die Nutzer sie verlassen
    Ein weiteres Problem ist, wie viel geistiges Eigentum konsumiert werden muss, damit es Diebstahl ist. Wenn ein LLM alle jemals entstandenen Filme gesehen hat, ist das wahrscheinlich Diebstahl. Aber ab wie vielen ist es zu viel? Apocalypse Now basierte lose auf oder ließ sich inspirieren von Heart of Darkness, aber wenn ein Mensch Heart of Darkness gelesen hat, kann man das nicht als „Diebstahl“ bezeichnen
    Wie man sagt, ist alle Kunst abgeleitet

    • Stimme zu, aber vielleicht privilegiert das die Funktionsweise menschlicher Intelligenz zu sehr. Ein LLM ist ein Polyhistor, der Inhalte mit übermenschlicher Geschwindigkeit ausspuckt
      Es kann ähnlich gut Gedichte und Literatur erzeugen, Code und Antworten zu Physik sowie Antworten zur Autoreparatur. Menschen mit solchen Fähigkeiten sind heute sehr selten
      Deshalb stimme ich zu, dass LLMs nur eine Übergangstechnologie sind, aber eher in dem Sinn wie die Übergangsrolle des Gehirns vom Basalganglion zum Neokortex. In einem künftigen allgemeinen KI-Gehirn werden LLMs wahrscheinlich zusammen mit anderen Komponenten enthalten sein, aber ob es sich zwingend so weiterentwickelt, dass es wie ein menschliches Gehirn arbeitet, ist keineswegs klar
    • Online-Foren sind manchmal der einzige Ort, an dem man Lösungen für Nischensituationen und Grenzfälle finden kann. Das sind Kniffe, auf die man allein nur sehr schwer gekommen wäre
      LLMs können zwar die offizielle Dokumentation von Tools oder Bibliotheken lernen, aber sie können nicht selbst mit den seltsamen Problemen experimentieren, die in der Tech-Branche viel zu häufig vorkommen, um Lösungen herauszufinden. Wenn Menschen solche Lösungen nicht mehr miteinander teilen, könnte das ein großes Problem werden
    • Über den Punkt „Menschen lernen nicht so“ denke ich in letzter Zeit oft nach
      Ich frage mich zum Beispiel, ob man mit Reinforcement Learning und generativen adversarialen Netzen eine KI trainieren könnte, IT-Aufgaben auf Basis eines Dokumentenbündels auszuführen, und ihre Fitness nicht nur am direkten Erfolg der Aufgabe zu messen, sondern auch an der Fähigkeit, neue und besser verfeinerte Dokumente zu erzeugen, die sogar einer Kopie ihrer selbst ohne jeden Kontext helfen würden, diese Aufgabe gut zu erledigen
    • Wenn ich an Bücher wie „Finite and Infinite Games“ denke, glaube ich, dass man das Wissen und die Kernaussage eines solchen Buchs bis zu einem gewissen Grad schon allein aus dem rekonstruieren kann, was man in anderen Bereichen gelesen hat
      Zu hören, wie verschiedene spirituelle Gurus dasselbe mit anderen Worten ausdrücken, ist ein bisschen so, als würde man in einem Kaleidoskop sehen, wie dieselben farbigen Glasscherben neu angeordnet werden und neue Muster bilden
    • Nur halb richtig. Schlussfolgern und echtes Verständnis sind vielleicht nicht die Stärke von LLMs, aber spannend ist, dass sie aus allem, was sie gelesen haben, gute Informationen erzeugen können. Ich habe davon schließlich nur einen winzigen Teil gelesen. Sie mögen dumm sein, aber sie haben ein gutes Gedächtnis
      Wenn künftige KI also ebenfalls so genutzt wird wie ChatGPT heute, nämlich dafür, dass ganz durchschnittliche Menschen zu fast allem Rat suchen, dann muss sie am Ende wohl doch alles lesen
  • Menschen posten nicht dort, wo niemand vorbeikommt
    Der Grund, warum man Stack Overflow bei gut dokumentiertem Material, besonders für populäre Sprachen, nicht besucht, ist, dass perplexity.ai, ChatGPT, Claude und andere Fragen besser beantworten als durch das Lesen von Stack-Overflow-Seiten und einem außerdem ermöglichen, Antworten schneller zu kopieren und einzufügen, egal ob sie richtig oder falsch sind
    Wenn man nicht auf Stack Overflow ist, um Fragen zu stellen, beantwortet man dort auch keine. Um die beobachteten Effekte zu erklären, braucht es keinen anderen Grund
    Natürlich bedeutet das, dass Stack Overflow und andere Q&A-Foren, wenn sie konkurrenzfähig bleiben wollen, die Nutzbarkeit von Antworten, also wie bequem sich eine Antwort in den Arbeitsablauf integrieren lässt, zur obersten Priorität machen müssen

    • Mit KI zu konkurrieren ist ein ausdrücklich nicht angestrebtes Ziel der Stack-Overflow-Community und des anderen Q&A-Forums, das ich nutze, Codidact
      KI „beantwortet Fragen“ nicht besser. Sie schneidet nur den Zwischenschritt heraus, in dem man Fragen interpretiert und sie mit Wörtern abgleicht, die wie eine Antwort aussehen. Sie halluziniert oft und macht praktisch keinerlei Plausibilitätsprüfung dessen, was man überhaupt zu tun versucht
      Der Hauptgrund, warum sie bei Geschwindigkeit und Bequemlichkeit gegenüber Q&A-Foren im Vorteil ist, liegt darin, dass es ihr völlig egal ist, ob Frage und Antwort später für jemand anderen nützlich sein könnten. Sie berücksichtigt nicht die Anforderungen, dass etwas über Suchmaschinen auffindbar sein, von anderen als dieselbe Frage verstanden werden und auf ein einzelnes Problem fokussiert sein sollte
      Dafür wurde sie von vornherein nicht gebaut, und es gibt auch keinen Anreiz dafür. Wenn die nächste Person fragt, kann sie denselben Antwortinhalt einfach in einer anderen, minderwertigen Form erneut erzeugen. Anders als menschliche Experten wird KI dieser Aufgabe nicht müde