1 Punkte von GN⁺ 2024-09-19 | 1 Kommentare | Auf WhatsApp teilen

Warum wordfreq nicht mehr aktualisiert wird

Generative KI verunreinigt die Daten

  • Seit 2021 gibt es keine verlässlichen Informationen mehr über den menschlichen Sprachgebrauch
  • Eine der Datenquellen von wordfreq, das offene Web (OSCAR), ist inzwischen voller sinnloser Texte, die von großen Sprachmodellen erzeugt wurden
  • Wenn solche Texte in die Daten aufgenommen werden, werden die Worthäufigkeiten verzerrt
  • Zum Beispiel ist ChatGPT von dem Wort "delve" besessen und erhöht dadurch dessen Häufigkeit unnatürlich stark

Früher kostenlose Informationen werden teuer

  • wordfreq sammelte Daten zur umgangssprachlichen Sprachverwendung von Twitter und Reddit
  • Twitter-Daten waren schon immer instabil, und inzwischen ist Twitter verschwunden und durch X ersetzt worden
  • Reddit stellt ebenfalls keine öffentlichen Datenarchive mehr bereit und verkauft die Daten nun zu Preisen, die sich nur OpenAI leisten kann

Ich möchte in diesem Bereich nicht länger mitmachen

  • wordfreq war hilfreich für die Korpuslinguistik und für Werkzeuge der natürlichen Sprachverarbeitung
  • Doch heute wird das Feld der natürlichen Sprachverarbeitung von generativer KI vereinnahmt
  • Es ist schwer, NLP-Forschung zu finden, die nicht auf geschlossenen Daten basiert, die von OpenAI und Google kontrolliert werden
  • Werkzeuge zum Sammeln von Texten werden heute vor allem für das Training generativer KI genutzt, was Probleme mit Urheberrechtsverletzungen verursacht
  • Ich möchte nicht an Arbeit beteiligt sein, die mit generativer KI verwechselt werden könnte

Zusammenfassung von GN⁺

  • wordfreq war ein Projekt auf Basis von Sprachdaten bis 2021
  • Mit dem Aufkommen generativer KI hat die Zuverlässigkeit der Daten abgenommen, und wichtige Datenquellen wie Twitter und Reddit sind kostenpflichtig geworden, weshalb die Aktualisierungen eingestellt wurden
  • Da das Feld der natürlichen Sprachverarbeitung von generativer KI vereinnahmt wird, erklärt der Autor, dass er in diesem Bereich nicht länger tätig sein möchte
  • Als alternative Werkzeuge mit ähnlicher Funktion werden Projekte wie Google Ngram Viewer empfohlen

1 Kommentare

 
GN⁺ 2024-09-19
Hacker-News-Kommentare
  • Das Web wurde durch Googles SEO-Regeln verseucht. Problematisch sind kurze Absätze, die Wiederholung von Keywords und eine Schreibweise, die sich stärker auf Indexierbarkeit als auf Lesbarkeit konzentriert.
    • ML/LLM ist die zweite Ursache der Verseuchung. Die erste war das Schreiben für Unternehmens-Bots.
  • 2023 wurde LowBackgroundSteel.ai geschaffen, um als Ort zum Sammeln unverfälschter Datensätze zu dienen.
    • Wordfreq soll hinzugefügt werden. Es wird darum gebeten, Material bei Tumblr einzureichen.
  • Die Enttäuschung über die NLP-Community ist nachvollziehbar, aber nicht alle sind so.
    • Das Problem der Web-Verschmutzung ist nicht neu. Es gab auch Spam-Farmen, die PageRank manipulieren wollten.
    • Jede Generation des Webs braucht Techniken, um die Probleme ihrer Zeit zu überwinden.
    • Der in George Orwells 1984 vorhergesehene Konsum automatisch erzeugter Inhalte ist Realität geworden. Diese Technik kann jedoch auch sinnvoll eingesetzt werden.
  • Das Web ist tot. Wegen AI dauert es länger, nützliche Informationen zu finden.
    • Es dauerte mehr als 10 Minuten, bestimmte kabellose Ohrhörer zu finden. Die Websites sind voller Müll.
    • Mit einem alten Laptop ist es schwer, grafiklastige moderne Websites zu nutzen.
    • Ich hasse das Web, Webbrowser, Webdesign, SEO, Suche, Werbung und alles andere. Ich suche nach Wegen, etwas zu kaufen, ohne das Web zu benutzen.
  • Es wird ein Google-Trends-Link geteilt und die interessante Tatsache erwähnt, dass die Suchergebnisse für "delve" nicht zugenommen haben.
  • Seit 2021 gibt es aus dieser Sicht keine verlässlichen Informationen mehr über den menschlichen Sprachgebrauch.
    • Texte haben den Kipppunkt bereits überschritten, aber bei Videos ist jetzt die entscheidende Phase.
    • Besonders für kleine Kinder ist es schwer zu unterscheiden, was echt ist. Die Technologie existiert bereits, aber die meisten Videoinhalte sind noch nicht betroffen.
  • Es wird der Ansicht zugestimmt, dass das Web voller von LLM erzeugtem Müll ist.
    • In vielen Fällen werden wertlose Inhalte für SEO erzeugt.
  • Wenn AGI billig und zugänglich wird, werden die meisten Arbeiten von AI erledigt werden.
    • Die AI-Revolution sollte in den Bereichen beginnen, die den Wurzeln von AI am nächsten sind.
  • Vor 2020 gedruckte Bücher könnten zu wertvollen Vermögenswerten werden.
    • Das Internet wird voller Müll sein, und auch moderne gedruckte Bücher werden verdächtig werden.
    • Menschen werden als Autoren von von AI geschriebenen Büchern präsentiert werden.
  • Schriftsteller, die durch AI ihre Jobs verloren haben, sollten von AI-Hyperscalern angestellt werden.
    • Allerdings sollten ihre Werke keine von AI erzeugten Sätze enthalten.