- Ein Artikel über die Ungenauigkeiten der n-grams im Google Ngram Viewer
- Der Autor weist darauf hin, dass die von Ngram gezeigten Häufigkeiten gängiger englischer Wörter die tatsächliche Verwendung im 20. Jahrhundert nicht genau widerspiegeln
- Der Autor und Talia Felix nutzten Google Books für ihre Forschung, stellten jedoch fest, dass es sich um eine fehlerhaft zusammengesetzte Datenbank mit vielen verborgenen Fehlern handelt
- Erläuterung eines Fehlers in der Ngram-Formel, der von Google Books übernommen wurde und dazu führt, dass viele englische Wörter so erscheinen, als seien sie im Verlauf des 20. Jahrhunderts seltener geworden und in den 1980er Jahren wieder aufgelebt
- Dieser Fehler entsteht, weil das Korpus von Google Books überwiegend wissenschaftlich ist und moderne wissenschaftliche sowie akademische Journale dazu neigen, einen begrenzten Wortschatz wiederholt zu verwenden
- Der übermäßige Gebrauch bestimmter Wörter in wissenschaftlichen Texten drückt die Häufigkeit anderer Wörter fälschlich nach unten und erzeugt in den Ngrams fast aller Wörter einen „Abstieg“ in der Mitte des 20. Jahrhunderts
- Ein weiterer Fehler besteht darin, dass Google Books Varianten in der Schreibweise und Pluralformen nicht als identisch erkennt
- Der Autor erwähnt, dass viele Dateien in Google Books falsch datiert sind, was die Genauigkeit der Daten weiter beeinträchtigt
- Trotz dieser Ungenauigkeiten werden Ngrams weiterhin verwendet, weil im Internet Bilder gewinnen und Wörter verlieren
- Der Autor rät den Lesern, Ngrams als dekorativ und verspielt zu betrachten, nicht als genaue Darstellung des Wortgebrauchs
- Der Autor kommt zu dem Schluss, dass Leser klüger sein können als die Ngram-Realität, auch wenn die Welt sie bevorzugt.
1 Kommentare
Hacker-News-Kommentare