Warum wordfreq nicht mehr aktualisiert wird
Generative KI verunreinigt die Daten
- Seit 2021 gibt es keine verlässlichen Informationen mehr über den menschlichen Sprachgebrauch
- Eine der Datenquellen von
wordfreq, das offene Web (OSCAR), ist inzwischen voller sinnloser Texte, die von großen Sprachmodellen erzeugt wurden
- Wenn solche Texte in die Daten aufgenommen werden, werden die Worthäufigkeiten verzerrt
- Zum Beispiel ist ChatGPT von dem Wort "delve" besessen und erhöht dadurch dessen Häufigkeit unnatürlich stark
Früher kostenlose Informationen werden teuer
wordfreq sammelte Daten zur umgangssprachlichen Sprachverwendung von Twitter und Reddit
- Twitter-Daten waren schon immer instabil, und inzwischen ist Twitter verschwunden und durch X ersetzt worden
- Reddit stellt ebenfalls keine öffentlichen Datenarchive mehr bereit und verkauft die Daten nun zu Preisen, die sich nur OpenAI leisten kann
Ich möchte in diesem Bereich nicht länger mitmachen
wordfreq war hilfreich für die Korpuslinguistik und für Werkzeuge der natürlichen Sprachverarbeitung
- Doch heute wird das Feld der natürlichen Sprachverarbeitung von generativer KI vereinnahmt
- Es ist schwer, NLP-Forschung zu finden, die nicht auf geschlossenen Daten basiert, die von OpenAI und Google kontrolliert werden
- Werkzeuge zum Sammeln von Texten werden heute vor allem für das Training generativer KI genutzt, was Probleme mit Urheberrechtsverletzungen verursacht
- Ich möchte nicht an Arbeit beteiligt sein, die mit generativer KI verwechselt werden könnte
Zusammenfassung von GN⁺
wordfreq war ein Projekt auf Basis von Sprachdaten bis 2021
- Mit dem Aufkommen generativer KI hat die Zuverlässigkeit der Daten abgenommen, und wichtige Datenquellen wie Twitter und Reddit sind kostenpflichtig geworden, weshalb die Aktualisierungen eingestellt wurden
- Da das Feld der natürlichen Sprachverarbeitung von generativer KI vereinnahmt wird, erklärt der Autor, dass er in diesem Bereich nicht länger tätig sein möchte
- Als alternative Werkzeuge mit ähnlicher Funktion werden Projekte wie Google Ngram Viewer empfohlen
1 Kommentare
Hacker-News-Kommentare