Wie viele der 170.000 englischen Wörter kennen Sie?
(vocabowl-870366514258.us-west1.run.app)- VocabOwl ist ein Tool für Scientific Word Count, das auf Basis von 171.476 englischen Wörtern schätzt, wie viele Wörter ein Nutzer tatsächlich kennt
- Um das Ergebnis zu sehen, muss man die 100-Fragen-Challenge absolvieren; dabei wird mit einem kurzen Test der gesamte Wortschatzumfang geschätzt
- Es wird erläutert, dass für die Zusammenstellung der Fragen stratifizierte Stichprobenziehung (stratified sampling) verwendet wird
- Die Website hebt den Einsatz von Gemini 3 Flash AI hervor und bindet KI in die Erstellung und den Betrieb des Worttests ein
- Das Projekt wurde vom Podcast The Rest Is Science sowie von Prof. Hannah Fry und Michael Stevens inspiriert
Der von VocabOwl angebotene Test
- VocabOwl ist ein Service zur Schätzung des englischen Wortschatzes, der sich um die Frage dreht: „How many of the 171,476 English words do you actually know?“
- Nutzer können eine aus 100 Fragen bestehende Challenge absolvieren und prüfen, wie viele englische Wörter sie kennen
- Es wird darauf hingewiesen, dass die Testfragen scientifically stratified zusammengestellt wurden
Umsetzungsweise und Inspirationsquellen
- Auf der Website wird Stratified Sampling als zentrales Verfahren hervorgehoben
- Als verwendete Technologie wird Gemini 3 Flash AI genannt
- Als Inspirationsquellen werden der Podcast The Rest Is Science, Prof. Hannah Fry und Michael Stevens genannt
1 Kommentare
Hacker-News-Kommentare
Für jedes Wort sind viel zu viele Klicks nötig. Ich mag solche Quizze zum „Wie viele Wörter kennst du?“, also habe ich es zwar bis zum Ende gemacht, aber insgesamt ist die Einordnung fragwürdig.
Grob stimmt zwar die Tendenz, dass die frühen Wörter leicht und die späteren schwer sind, aber im mittleren Schwierigkeitsbereich ist einiges ziemlich durcheinander. breviary ist für „mittel“ deutlich zu selten, und ein Phobiewort wie Hippopotomonstrosesquippedaliophobia ist weniger ein tatsächlich gebräuchliches Wort als eher die Art von Gag, den ein Grundschüler im Wörterbuch nachschlägt und herumzeigt. Auch metamorphosis und kinetic als expert einzuordnen ist schwer nachzuvollziehen.
Die Definitionen waren meist erkennbar, aber lethargy als „Zustand der Antriebslosigkeit“ ist zu offensichtlich, complacent als „selbstzufriedene Überheblichkeit“ ist überzogen, bei magnanimous braucht es nicht zwingend einen „Rivalen“, und bei gauche geht mit bloß „sozial ungeschickt“ die Nuance von tactless verloren.
Es nennt sich „wissenschaftlich“, präsentiert aber nur grob eine Formel und erklärt nicht, wie die Wörter anfangs geschichtet wurden. Wenn geschichtete Stichprobenziehung dafür tatsächlich eine formal anerkannte Methode ist, hätte ich gern Links auf echte Referenzen gesehen. Ich halte mich für jemanden mit großem Wortschatz, aber die von dieser App geschätzten über 75k erscheinen mir kaum glaubwürdig.
Bei Hippopotomonstrosesquippedaliophobia geht es offenbar nicht darum, das ganze Wort auswendig zu kennen, sondern aus den Bestandteilen auf die Bedeutung zu schließen. Ich kannte sesquippedalian, phobia ist leicht zu erkennen, und selbst bei hippo lässt sich vermuten, dass es hier eher in Richtung „groß“ als in Richtung Tier geht, aufgrund der lateinischen Wurzel.
complacent und gauche habe ich auch in solchen Verwendungen gehört, und für ein Wörterbuch wären das im schlimmsten Fall wohl die zweite oder dritte Definition, daher stört mich das nicht. Früher war ich bei Spelling Bees ziemlich gut; mit genug Disziplin, jedes Wochenende ein paar Stunden das Wörterbuch zu studieren, hätte ich vielleicht noch höher kommen können.
Eine Zusammenfassung, die meine gewählten und die falschen Antworten mit der richtigen Lösung zeigt, wäre viel besser.
Allerdings analysieren sie dort auch smug ähnlich wie self-satisfied oder self-complacent, also liegt die unerwartete Seite vielleicht eher an der Bedeutung von smug. Für mein Sprachgefühl ist smug nicht einfach nur etwas mit „selbst-“, sondern relationaler: Es klingt danach, dass man die eigene Überlegenheit gegenüber jemand anderem genießt. Complacent heißt im Grundsatz, mit der eigenen Lage zufrieden zu sein, trägt aber oft die negative Implikation, dass man handeln sollte, um es besser zu machen, es aber nicht tut.
Für jedes Wort sind zu viele Klicks nötig, sodass das Durchspielen lange dauerte, und durch die Antwortoptionen war das Raten selbst bei unbekannten Wörtern zu einfach.
Das Konzept ist interessant, aber 100 Wörter beantworten zu müssen, ist ziemlich viel. Sich durch die anfangs leichten Wörter zu arbeiten war langweilig, sodass ich schon ermüdet war, bevor die interessanten Wörter kamen.
So ein System könnte intern mit einem Wert für Punktestand und Konfidenz arbeiten und sich viel schneller einpendeln. Anfangs ist die Konfidenz niedrig und steigt mit der Zeit; zu Beginn bewegen richtige und falsche Antworten den Score stark, später stabilisiert er sich allmählich.
Praktisch würde man anfangs immer seltenere Wörter bekommen, dann bei einem Fehler wieder zu leichteren zurückgehen, und sobald man wieder richtig antwortet, kreist das System letztlich um Wörter nahe dem eigenen Niveau. Und auch pro Wort sind es zu viele Klicks. Es ist ein lockerer Test; ein Klick auf die Definition sollte direkt genügen, und wenn Fehlklicks ein Problem sind, reicht ein Undo-Button.
Es wäre gut, jeder Option einen Buchstaben oder eine Zahl zu geben, damit man sie per Tastatur wählen kann. Früher gab es einen Formular-Dienst, der so etwas ziemlich gut konnte; ich glaube, es war Typeform. Als ich nachgesehen habe, war inzwischen allerdings alles mit AI-Erwähnungen überzogen, sodass ich jede Lust verlor, das noch weiter zu prüfen.
Zusätzlich zu den anderen Einwänden ist die Berechnung wegen eines strukturellen Fehlers nur zur Hälfte korrekt. Je nachdem, wie man zählt, kann man sogar sagen, dass sie zu 100 % falsch ist.
Ich bin englischer Muttersprachler, ein belesener Nerd mit voller SAT-Punktzahl, und ich habe ohne Nachschlagen alle 100 richtig beantwortet. Trotzdem war ich verwirrt, dass die „SCIENTIFIC ESTIMATE“ nur ergab, ich würde 85.000 von 170.000 kennen.
Auf der abschließenden Seite „How is this calculated“ steht, dass es auf Grundlage der Oxford English Dictionary Second Edition etwa 171.476 aktuell verwendete Wörter gebe und die Schwierigkeitsstufen in Core Basics 3.000, Intermediate 7.000, Advanced 10.000, Expert 25.000 und The Obscure 40.000+ eingeteilt seien. Die Gesamtpunktzahl sei die Summe aus Genauigkeit pro Stufe × Größe der Stufe.
Diese Stufen ergeben zusammengerechnet aber nur 85.000, also kommt man selbst mit einem perfekten Ergebnis nur auf 50 %. Außerdem wird nur eine sehr eingeschränkte Teilmenge der Sprache verwendet, die die Schwierigkeit womöglich nicht gut repräsentiert. Nett, aber in vielerlei Hinsicht falsch.
Wie bei englischen Wortschatztests oft der Fall, ist man bei den schwierigen Wörtern im Vorteil, wenn man Griechisch kann.
Es gibt zwar einige Fachwörter, aber die meisten sind Wörter, die man auch in ganz normalen Gesprächen auf Radio 4 hören könnte.
Ich kam auf 78.000, was für eine Zweitsprache ziemlich gut ist. Der Maximalwert dieses Tests scheint 85.000 zu sein.
Die Antwortoptionen wirken, als wären sie von einem LLM erzeugt worden; es gibt ein paar Muster, etwa dass „now“ und „forever“ oft vorkommen.
Vor ein paar Jahren habe ich ein ähnliches Spiel gespielt, bei dem man immer weiterspielen konnte: Wenn man genug hintereinander richtig hatte, stieg man ein Level auf, und bei einem Fehler fiel man wieder herunter. Auf sehr hohen Stufen wurde es sogar leichter, weil altenglische Wörter dazukamen, die praktisch identisch mit Wörtern in meiner Muttersprache Niederländisch waren. Ich glaube, es hatte auch einen wohltätigen Aspekt und war wohl https://freerice.com/, aber inzwischen scheint das Spiel vereinfacht worden zu sein.
An der belgischen Ghent University gab es auch einen interessanten Test, der die Kompetenz bewertete, indem er mit dem Durchschnitt bestimmter Bildungsniveaus verglich. Dort kam ich auf etwa 41.000, was wohl dem Durchschnitt englischer Muttersprachler auf Universitätsniveau entsprach. Im Update am Ende von https://languagehat.com/ghent-vocabulary-test/ steht, wohin dieser Test verschwunden ist und welche Alternativen es gibt.
Ziemlich unterhaltsam.
Den Submit-Button sollte man abschaffen; stattdessen sollte ein Klick erst zeigen, ob die Antwort richtig war, und dann etwa eine Sekunde später automatisch zur nächsten Frage weitergehen. Der Ablauf mit zweimaligem Klicken auf Submit reißt einen aus dem Flow.
Außerdem war es bei den Wörtern, die ich gesehen habe, so, dass eine von vier Optionen richtig war, eine das Gegenteil der richtigen Antwort, und die beiden anderen fast zufällig wirkten. Man kann faktisch jede Option überspringen, bei der nicht auch ein Gegenteil dabei ist.
Vor allem konnte man Antworten ausschließen, die das Wort in gebräuchliche englische Bestandteile zerlegten. Wenn ein Wort sich so leicht zerlegen lässt, kann es von vornherein kaum obscure sein.
Gute Distraktoren für Multiple-Choice-Aufgaben zu schreiben ist schwer. Unter den Prüfungen, die ich kenne, schafft das fast grausam gut die polnische staatliche Ärzteprüfung LEK, abgesehen von Prüfungen, die Rechnen oder Auswendiglernen verlangen. Wer nicht aus dem Fachgebiet kommt, hat dort praktisch keine Chance, durch Bauchgefühl besser als den Zufall zu liegen.
Man sollte mit „Ich weiß es nicht“ antworten können. Wenn man es wirklich nicht weiß, ist es unfair, mit 1/4 Wahrscheinlichkeit richtig zu liegen, und mit üblichen Multiple-Choice-Strategien kann man sogar noch öfter richtig liegen.
Einige Wörter, bei denen ich gerne als falsch gezählt worden wäre, wurden trotzdem als richtig gewertet.
Man sollte auch die Schwierigkeit etwas mischen. Die letzten ungefähr 30 fühlten sich wie stumpfe Arbeit an. Die Idee an sich ist gut.
Selbst im schlimmsten Fall ließe sich die zufällige Trefferquote von 25 % herausrechnen.
Man kann die Aufgaben ziemlich leicht mit Teststrategie lösen. Viele Optionen sehen nicht wie Wortdefinitionen aus, oft gibt es die Struktur „richtige Antwort + Gegenteil + 2 irrelevante“, und im späteren Verlauf ist sehr oft die längste Antwort richtig. Das Design der falschen Antwortoptionen ist nicht gut.
Auch die Wortstichprobe ist stark auf Begriffe rund um Wörter, Sprechen, Sprecher und Überzeugung fokussiert. Vermutlich hat ein LLM beim Auswählen der Wörter einen Prompt bekommen, der auf die Aufgabe mit „Wörtern“ zugeschnitten war, und deshalb besonders oft Wörter auswählte, die mit „Wort“ zu tun haben.
Zum Hintergrund: Ich bin Zweitsprachler, ein Sprachnerd und nutze Englisch hauptsächlich im akademischen und beruflichen Umfeld. Mit einer Mischung aus den obigen Strategien kam ich auf 75.400, aber realistisch könnte mein tatsächlicher Wortschatz eher bei 10–15k liegen.
Auch das Design ist, wie man sofort sieht, Duolingo auf schmerzhaft ähnliche Weise nachempfunden.
Ich denke, die meisten Menschen ab einem gewissen Alter werden zustimmen, dass es in fast jeder Sprache ein Wort für diese Art von Schmerz gibt.
Ich hatte 88 von 100 richtig, aber das Einzige, was ich dadurch gelernt habe, ist, dass ich ziemlich gut raten kann. Etwa 20 konnte ich lösen, indem ich unplausible Optionen ausgeschlossen oder aus der Bedeutung von Wortteilen geraten habe.
Wenn man ehrlicher einschätzen wollte, wie viele Wörter ich wirklich kenne und wie viele ich nur erraten kann, sollte es eine Option „Ich weiß es nicht“ geben.
Um das Niveau schneller zu bestimmen, sollte man ein ELO-Rating verwenden. Sich mühsam durch 100 Grundwörter zu arbeiten, hat keinen wirklichen Sinn.
Die Zahl 171.476 aus dem OED wird ungenau verwendet, und der Ansatz missversteht Wörterbuch und Sprache grundlegend.
Diese Zahl bezeichnet die Anzahl der vollständigen Einträge, die in der 20-bändigen Second Edition des Oxford English Dictionary als „current use“ definiert sind. Sie steht nicht für die Zahl der Wörter. Auch alternative Schreibweisen, Flexionsformen, Wendungen und Run-on-Einträge des OED sind darin nicht vollständig enthalten.
Außerdem ist das OED keineswegs eine vollständige Liste des Englischen. Tatsächlich ist der Aktualisierungszyklus sehr langsam, sodass wahrscheinlich Millionen von Wörtern fehlen. Als Wörterbuchredakteur und Lexikograf nutze ich das OED täglich, und das wissen auch die Leute, die es erstellen.