1 Punkte von GN⁺ 6 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • VocabOwl ist ein Tool für Scientific Word Count, das auf Basis von 171.476 englischen Wörtern schätzt, wie viele Wörter ein Nutzer tatsächlich kennt
  • Um das Ergebnis zu sehen, muss man die 100-Fragen-Challenge absolvieren; dabei wird mit einem kurzen Test der gesamte Wortschatzumfang geschätzt
  • Es wird erläutert, dass für die Zusammenstellung der Fragen stratifizierte Stichprobenziehung (stratified sampling) verwendet wird
  • Die Website hebt den Einsatz von Gemini 3 Flash AI hervor und bindet KI in die Erstellung und den Betrieb des Worttests ein
  • Das Projekt wurde vom Podcast The Rest Is Science sowie von Prof. Hannah Fry und Michael Stevens inspiriert

Der von VocabOwl angebotene Test

  • VocabOwl ist ein Service zur Schätzung des englischen Wortschatzes, der sich um die Frage dreht: „How many of the 171,476 English words do you actually know?“
  • Nutzer können eine aus 100 Fragen bestehende Challenge absolvieren und prüfen, wie viele englische Wörter sie kennen
  • Es wird darauf hingewiesen, dass die Testfragen scientifically stratified zusammengestellt wurden

Umsetzungsweise und Inspirationsquellen

  • Auf der Website wird Stratified Sampling als zentrales Verfahren hervorgehoben
  • Als verwendete Technologie wird Gemini 3 Flash AI genannt
  • Als Inspirationsquellen werden der Podcast The Rest Is Science, Prof. Hannah Fry und Michael Stevens genannt

1 Kommentare

 
GN⁺ 6 시간 전
Hacker-News-Kommentare
  • Für jedes Wort sind viel zu viele Klicks nötig. Ich mag solche Quizze zum „Wie viele Wörter kennst du?“, also habe ich es zwar bis zum Ende gemacht, aber insgesamt ist die Einordnung fragwürdig.
    Grob stimmt zwar die Tendenz, dass die frühen Wörter leicht und die späteren schwer sind, aber im mittleren Schwierigkeitsbereich ist einiges ziemlich durcheinander. breviary ist für „mittel“ deutlich zu selten, und ein Phobiewort wie Hippopotomonstrosesquippedaliophobia ist weniger ein tatsächlich gebräuchliches Wort als eher die Art von Gag, den ein Grundschüler im Wörterbuch nachschlägt und herumzeigt. Auch metamorphosis und kinetic als expert einzuordnen ist schwer nachzuvollziehen.
    Die Definitionen waren meist erkennbar, aber lethargy als „Zustand der Antriebslosigkeit“ ist zu offensichtlich, complacent als „selbstzufriedene Überheblichkeit“ ist überzogen, bei magnanimous braucht es nicht zwingend einen „Rivalen“, und bei gauche geht mit bloß „sozial ungeschickt“ die Nuance von tactless verloren.
    Es nennt sich „wissenschaftlich“, präsentiert aber nur grob eine Formel und erklärt nicht, wie die Wörter anfangs geschichtet wurden. Wenn geschichtete Stichprobenziehung dafür tatsächlich eine formal anerkannte Methode ist, hätte ich gern Links auf echte Referenzen gesehen. Ich halte mich für jemanden mit großem Wortschatz, aber die von dieser App geschätzten über 75k erscheinen mir kaum glaubwürdig.

    • Einiges fand ich allerdings eher in Ordnung. breviary war für mich vertraut und nicht selten. Katholiken kennen das Wort weithin, und wer sich für mittelalterliche Kunst oder Bücher interessiert, kennt es wahrscheinlich ebenfalls. Es ist eine der wichtigsten Bucharten aus der Zeit vor dem Buchdruck; wenn man an Bilder illuminierter Handschriften denkt, kommt gut die Hälfte davon vielleicht aus dieser Ecke.
      Bei Hippopotomonstrosesquippedaliophobia geht es offenbar nicht darum, das ganze Wort auswendig zu kennen, sondern aus den Bestandteilen auf die Bedeutung zu schließen. Ich kannte sesquippedalian, phobia ist leicht zu erkennen, und selbst bei hippo lässt sich vermuten, dass es hier eher in Richtung „groß“ als in Richtung Tier geht, aufgrund der lateinischen Wurzel.
      complacent und gauche habe ich auch in solchen Verwendungen gehört, und für ein Wörterbuch wären das im schlimmsten Fall wohl die zweite oder dritte Definition, daher stört mich das nicht. Früher war ich bei Spelling Bees ziemlich gut; mit genug Disziplin, jedes Wochenende ein paar Stunden das Wörterbuch zu studieren, hätte ich vielleicht noch höher kommen können.
    • Als eines der letzten Wörter kam kerfuffle, und das ist ein ziemlich gebräuchliches Wort. Dagegen hatte ich Zenzizenzizenzic noch nie gehört, glaube aber, es richtig getroffen zu haben.
      Eine Zusammenfassung, die meine gewählten und die falschen Antworten mit der richtigen Lösung zeigt, wäre viel besser.
    • Ich stimme zu, dass complacent nicht im Kern smug bedeutet, aber seltsamerweise führen sowohl dictionary.com als auch Wiktionary smug als Synonym oder Teil der Definition.
      Allerdings analysieren sie dort auch smug ähnlich wie self-satisfied oder self-complacent, also liegt die unerwartete Seite vielleicht eher an der Bedeutung von smug. Für mein Sprachgefühl ist smug nicht einfach nur etwas mit „selbst-“, sondern relationaler: Es klingt danach, dass man die eigene Überlegenheit gegenüber jemand anderem genießt. Complacent heißt im Grundsatz, mit der eigenen Lage zufrieden zu sein, trägt aber oft die negative Implikation, dass man handeln sollte, um es besser zu machen, es aber nicht tut.
    • Beeindruckend ist, dass es auf der HN-Startseite gelandet ist, obwohl der Test kaum adaptiv wirkt.
    • Auch wenn man Hippopotomonstrosesquippedaliophobia nicht kennt, ist es unter vier Antwortoptionen sehr leicht zu erraten.
      Für jedes Wort sind zu viele Klicks nötig, sodass das Durchspielen lange dauerte, und durch die Antwortoptionen war das Raten selbst bei unbekannten Wörtern zu einfach.
  • Das Konzept ist interessant, aber 100 Wörter beantworten zu müssen, ist ziemlich viel. Sich durch die anfangs leichten Wörter zu arbeiten war langweilig, sodass ich schon ermüdet war, bevor die interessanten Wörter kamen.
    So ein System könnte intern mit einem Wert für Punktestand und Konfidenz arbeiten und sich viel schneller einpendeln. Anfangs ist die Konfidenz niedrig und steigt mit der Zeit; zu Beginn bewegen richtige und falsche Antworten den Score stark, später stabilisiert er sich allmählich.
    Praktisch würde man anfangs immer seltenere Wörter bekommen, dann bei einem Fehler wieder zu leichteren zurückgehen, und sobald man wieder richtig antwortet, kreist das System letztlich um Wörter nahe dem eigenen Niveau. Und auch pro Wort sind es zu viele Klicks. Es ist ein lockerer Test; ein Klick auf die Definition sollte direkt genügen, und wenn Fehlklicks ein Problem sind, reicht ein Undo-Button.

    • Man sollte auch Eingabefehler einkalkulieren und das in die Konfidenzberechnung aufnehmen. Selbst der klügste Mensch der Welt macht gelegentlich einen simplen Fehlklick oder hat einen kurzen neuronalen Aussetzer.
    • Dem ersten Punkt stimme ich besonders zu. Ich bin nach etwa 10 Wörtern ausgestiegen, weil nicht klar war, wie man zur nächsten Stufe kommt.
    • Wirklich schwierig wird es auch nicht. Außerdem bezogen sich zu viele Wörter entweder auf lange Wörter an sich oder auf die Neigung, weitschweifig zu reden.
    • Auf Mobilgeräten ist der Absenden-Button unten auf dem Bildschirm, sodass man scrollen muss. Nach einmaligem Scrollen scheint die Position allerdings zu passen.
    • Auch die Klickziele liegen viel zu weit auseinander. Auf dem Laptop musste ich den Cursor ständig hoch und runter bewegen, um eine Antwort auszuwählen und zu bestätigen.
      Es wäre gut, jeder Option einen Buchstaben oder eine Zahl zu geben, damit man sie per Tastatur wählen kann. Früher gab es einen Formular-Dienst, der so etwas ziemlich gut konnte; ich glaube, es war Typeform. Als ich nachgesehen habe, war inzwischen allerdings alles mit AI-Erwähnungen überzogen, sodass ich jede Lust verlor, das noch weiter zu prüfen.
  • Zusätzlich zu den anderen Einwänden ist die Berechnung wegen eines strukturellen Fehlers nur zur Hälfte korrekt. Je nachdem, wie man zählt, kann man sogar sagen, dass sie zu 100 % falsch ist.
    Ich bin englischer Muttersprachler, ein belesener Nerd mit voller SAT-Punktzahl, und ich habe ohne Nachschlagen alle 100 richtig beantwortet. Trotzdem war ich verwirrt, dass die „SCIENTIFIC ESTIMATE“ nur ergab, ich würde 85.000 von 170.000 kennen.
    Auf der abschließenden Seite „How is this calculated“ steht, dass es auf Grundlage der Oxford English Dictionary Second Edition etwa 171.476 aktuell verwendete Wörter gebe und die Schwierigkeitsstufen in Core Basics 3.000, Intermediate 7.000, Advanced 10.000, Expert 25.000 und The Obscure 40.000+ eingeteilt seien. Die Gesamtpunktzahl sei die Summe aus Genauigkeit pro Stufe × Größe der Stufe.
    Diese Stufen ergeben zusammengerechnet aber nur 85.000, also kommt man selbst mit einem perfekten Ergebnis nur auf 50 %. Außerdem wird nur eine sehr eingeschränkte Teilmenge der Sprache verwendet, die die Schwierigkeit womöglich nicht gut repräsentiert. Nett, aber in vielerlei Hinsicht falsch.

    • Exakt dasselbe Feedback. Ich hatte alle 100 richtig, und das Ergebnis war dasselbe.
      Wie bei englischen Wortschatztests oft der Fall, ist man bei den schwierigen Wörtern im Vorteil, wenn man Griechisch kann.
    • Die Auswahl der „fortgeschrittenen Wörter“ ist etwas seltsam. Obscure ist gar nicht so obscure.
      Es gibt zwar einige Fachwörter, aber die meisten sind Wörter, die man auch in ganz normalen Gesprächen auf Radio 4 hören könnte.
    • Bei ziemlich vielen konnte man die richtige Antwort finden, weil drei von vier Optionen offensichtlich keinen Sinn ergaben. Wenn wirklich eine Schätzung das Ziel ist, hätte ich lieber einen „Ich weiß es nicht“-Button, statt einfach eine richtige Antwort auswählen zu müssen.
    • Wirkt eindeutig wie mit AI gemacht.
    • Ich hatte ungefähr 80 richtig und kam auf 57k.
  • Ich kam auf 78.000, was für eine Zweitsprache ziemlich gut ist. Der Maximalwert dieses Tests scheint 85.000 zu sein.
    Die Antwortoptionen wirken, als wären sie von einem LLM erzeugt worden; es gibt ein paar Muster, etwa dass „now“ und „forever“ oft vorkommen.
    Vor ein paar Jahren habe ich ein ähnliches Spiel gespielt, bei dem man immer weiterspielen konnte: Wenn man genug hintereinander richtig hatte, stieg man ein Level auf, und bei einem Fehler fiel man wieder herunter. Auf sehr hohen Stufen wurde es sogar leichter, weil altenglische Wörter dazukamen, die praktisch identisch mit Wörtern in meiner Muttersprache Niederländisch waren. Ich glaube, es hatte auch einen wohltätigen Aspekt und war wohl https://freerice.com/, aber inzwischen scheint das Spiel vereinfacht worden zu sein.
    An der belgischen Ghent University gab es auch einen interessanten Test, der die Kompetenz bewertete, indem er mit dem Durchschnitt bestimmter Bildungsniveaus verglich. Dort kam ich auf etwa 41.000, was wohl dem Durchschnitt englischer Muttersprachler auf Universitätsniveau entsprach. Im Update am Ende von https://languagehat.com/ghent-vocabulary-test/ steht, wohin dieser Test verschwunden ist und welche Alternativen es gibt.

  • Ziemlich unterhaltsam.
    Den Submit-Button sollte man abschaffen; stattdessen sollte ein Klick erst zeigen, ob die Antwort richtig war, und dann etwa eine Sekunde später automatisch zur nächsten Frage weitergehen. Der Ablauf mit zweimaligem Klicken auf Submit reißt einen aus dem Flow.
    Außerdem war es bei den Wörtern, die ich gesehen habe, so, dass eine von vier Optionen richtig war, eine das Gegenteil der richtigen Antwort, und die beiden anderen fast zufällig wirkten. Man kann faktisch jede Option überspringen, bei der nicht auch ein Gegenteil dabei ist.

    • Mit Keyboard-Shortcuts ließen sich 100 Wörter viel weniger umständlich durchspielen. 1–4 für die Antwortoptionen, Enter zum Abschicken, und das Problem mit dem springenden Layout sollte auch behoben werden.
    • Mir wurden 74k geschätzt, aber ich habe das Gefühl, dass das aufgebläht sein könnte. Selbst wenn man die Antwort nicht wusste, konnte man oft aus der Stimmung der Optionen raten, und die falschen Antworten waren nicht plausibel genug.
      Vor allem konnte man Antworten ausschließen, die das Wort in gebräuchliche englische Bestandteile zerlegten. Wenn ein Wort sich so leicht zerlegen lässt, kann es von vornherein kaum obscure sein.
      Gute Distraktoren für Multiple-Choice-Aufgaben zu schreiben ist schwer. Unter den Prüfungen, die ich kenne, schafft das fast grausam gut die polnische staatliche Ärzteprüfung LEK, abgesehen von Prüfungen, die Rechnen oder Auswendiglernen verlangen. Wer nicht aus dem Fachgebiet kommt, hat dort praktisch keine Chance, durch Bauchgefühl besser als den Zufall zu liegen.
    • Ich würde es wirklich hassen, wenn etwas als falsch gewertet würde, nicht weil ich falsch getippt habe, sondern weil ich den Handybildschirm versehentlich berührt habe.
  • Man sollte mit „Ich weiß es nicht“ antworten können. Wenn man es wirklich nicht weiß, ist es unfair, mit 1/4 Wahrscheinlichkeit richtig zu liegen, und mit üblichen Multiple-Choice-Strategien kann man sogar noch öfter richtig liegen.
    Einige Wörter, bei denen ich gerne als falsch gezählt worden wäre, wurden trotzdem als richtig gewertet.

    • Ich bin alle 100 durchgegangen, und es war nicht einmal nur 1/4. Bei schwierigen Wörtern war oft die längste Erklärung die richtige. Außerdem waren zwei Optionen oft irgendwelche Gegenstände, und solche Antworten waren fast nie richtig.
      Man sollte auch die Schwierigkeit etwas mischen. Die letzten ungefähr 30 fühlten sich wie stumpfe Arbeit an. Die Idee an sich ist gut.
    • Wenn man bei jedem Wort einfach mit Ja/Nein angeben würde, ob man die Definition kennt, wäre es einfacher und schneller. Dann könnte man auch 100 Wörter zügig durchgehen. Keyboard-Shortcuts für jede Option wären ebenfalls gut.
    • Bei einigen habe ich die richtige Definition durch Vergleich der Optionen erschlossen.
    • Vielleicht ist es sogar sinnvoller, zum Raten zu zwingen. Man kann schließlich auf Basis bekannter Wortbestandteile raten.
      Selbst im schlimmsten Fall ließe sich die zufällige Trefferquote von 25 % herausrechnen.
  • Man kann die Aufgaben ziemlich leicht mit Teststrategie lösen. Viele Optionen sehen nicht wie Wortdefinitionen aus, oft gibt es die Struktur „richtige Antwort + Gegenteil + 2 irrelevante“, und im späteren Verlauf ist sehr oft die längste Antwort richtig. Das Design der falschen Antwortoptionen ist nicht gut.
    Auch die Wortstichprobe ist stark auf Begriffe rund um Wörter, Sprechen, Sprecher und Überzeugung fokussiert. Vermutlich hat ein LLM beim Auswählen der Wörter einen Prompt bekommen, der auf die Aufgabe mit „Wörtern“ zugeschnitten war, und deshalb besonders oft Wörter auswählte, die mit „Wort“ zu tun haben.
    Zum Hintergrund: Ich bin Zweitsprachler, ein Sprachnerd und nutze Englisch hauptsächlich im akademischen und beruflichen Umfeld. Mit einer Mischung aus den obigen Strategien kam ich auf 75.400, aber realistisch könnte mein tatsächlicher Wortschatz eher bei 10–15k liegen.
    Auch das Design ist, wie man sofort sieht, Duolingo auf schmerzhaft ähnliche Weise nachempfunden.

    • Wegen einer Definition wie „stechender Schmerz im Rücken“ musste ich das englische Wort lumbago nachschlagen. Im Deutschen gibt es dafür den wunderbar bildhaften Ausdruck Hexenschuss.
      Ich denke, die meisten Menschen ab einem gewissen Alter werden zustimmen, dass es in fast jeder Sprache ein Wort für diese Art von Schmerz gibt.
    • Alle Optionen mit Semikolon waren richtig.
    • Schon auf der Landingpage war sofort klar, dass es wie Duolingo aussieht.
  • Ich hatte 88 von 100 richtig, aber das Einzige, was ich dadurch gelernt habe, ist, dass ich ziemlich gut raten kann. Etwa 20 konnte ich lösen, indem ich unplausible Optionen ausgeschlossen oder aus der Bedeutung von Wortteilen geraten habe.
    Wenn man ehrlicher einschätzen wollte, wie viele Wörter ich wirklich kenne und wie viele ich nur erraten kann, sollte es eine Option „Ich weiß es nicht“ geben.

  • Um das Niveau schneller zu bestimmen, sollte man ein ELO-Rating verwenden. Sich mühsam durch 100 Grundwörter zu arbeiten, hat keinen wirklichen Sinn.

  • Die Zahl 171.476 aus dem OED wird ungenau verwendet, und der Ansatz missversteht Wörterbuch und Sprache grundlegend.
    Diese Zahl bezeichnet die Anzahl der vollständigen Einträge, die in der 20-bändigen Second Edition des Oxford English Dictionary als „current use“ definiert sind. Sie steht nicht für die Zahl der Wörter. Auch alternative Schreibweisen, Flexionsformen, Wendungen und Run-on-Einträge des OED sind darin nicht vollständig enthalten.
    Außerdem ist das OED keineswegs eine vollständige Liste des Englischen. Tatsächlich ist der Aktualisierungszyklus sehr langsam, sodass wahrscheinlich Millionen von Wörtern fehlen. Als Wörterbuchredakteur und Lexikograf nutze ich das OED täglich, und das wissen auch die Leute, die es erstellen.