1 Punkte von GN⁺ 2023-09-27 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Artikel über die Ungenauigkeiten der n-grams im Google Ngram Viewer
  • Der Autor weist darauf hin, dass die von Ngram gezeigten Häufigkeiten gängiger englischer Wörter die tatsächliche Verwendung im 20. Jahrhundert nicht genau widerspiegeln
  • Der Autor und Talia Felix nutzten Google Books für ihre Forschung, stellten jedoch fest, dass es sich um eine fehlerhaft zusammengesetzte Datenbank mit vielen verborgenen Fehlern handelt
  • Erläuterung eines Fehlers in der Ngram-Formel, der von Google Books übernommen wurde und dazu führt, dass viele englische Wörter so erscheinen, als seien sie im Verlauf des 20. Jahrhunderts seltener geworden und in den 1980er Jahren wieder aufgelebt
  • Dieser Fehler entsteht, weil das Korpus von Google Books überwiegend wissenschaftlich ist und moderne wissenschaftliche sowie akademische Journale dazu neigen, einen begrenzten Wortschatz wiederholt zu verwenden
  • Der übermäßige Gebrauch bestimmter Wörter in wissenschaftlichen Texten drückt die Häufigkeit anderer Wörter fälschlich nach unten und erzeugt in den Ngrams fast aller Wörter einen „Abstieg“ in der Mitte des 20. Jahrhunderts
  • Ein weiterer Fehler besteht darin, dass Google Books Varianten in der Schreibweise und Pluralformen nicht als identisch erkennt
  • Der Autor erwähnt, dass viele Dateien in Google Books falsch datiert sind, was die Genauigkeit der Daten weiter beeinträchtigt
  • Trotz dieser Ungenauigkeiten werden Ngrams weiterhin verwendet, weil im Internet Bilder gewinnen und Wörter verlieren
  • Der Autor rät den Lesern, Ngrams als dekorativ und verspielt zu betrachten, nicht als genaue Darstellung des Wortgebrauchs
  • Der Autor kommt zu dem Schluss, dass Leser klüger sein können als die Ngram-Realität, auch wenn die Welt sie bevorzugt.

1 Kommentare

 
GN⁺ 2023-09-27
Hacker-News-Kommentare
  • Der Artikeltitel „Wer nach Gewissheit verlangt, verlangt nach Lügen“ löste eine Diskussion über den Wunsch nach Gewissheit bei Projektzeitplänen aus.
  • Der Artikel kritisiert die Verwendung von n-Grammen in modernen Algorithmen und behauptet, sie seien das Produkt unzuverlässiger und unwissender Technologie.
  • Die Kritik an n-Grammen wird als Warnung in einer Zeit gesehen, die zunehmend von generativer KI dominiert wird, die im Kern ein n-Gramm-Prädiktor ist.
  • Einige Kommentare bezweifeln die Stichhaltigkeit der Behauptungen der Autoren über n-Gramm-Statistiken und verweisen auf fehlende Belege sowie irreführende Interpretationen von Grafiken.
  • Das grundlegende Problem der Datenanalyse wird hervorgehoben: Analysen sind nur so gut wie die Daten, und die Bewertung der Datenqualität ist schwierig.
  • Einige Kommentare kritisieren den Titel des Artikels und die Tendenz zu Clickbait in wissenschaftlichen Publikationen.
  • Die Nutzung von Google Ngram wird diskutiert; einige argumentieren, nicht das Tool sei fehlerhaft, sondern seine Statistiken würden aus dem Kontext gerissen.
  • Der Artikel wird dafür kritisiert, dass die vertikale Achse der Grafiken keine 0 enthält, wodurch kleine Schwankungen groß erscheinen können.
  • Es wird darüber diskutiert, dass es wegen inhärenter Datenverluste unmöglich ist, ein repräsentatives Bild der Vergangenheit zu konstruieren.