Alles steht miteinander in Korrelation (2014–23)

(gwern.net)

2 Punkte von GN⁺ 2025-08-24 | 1 Kommentare | Auf WhatsApp teilen

In den Sozial- und Lebenswissenschaften besteht zwischen fast allen Variablen ein gewisses Maß an Korrelation
Dieses Phänomen ist kein bloßer Zufall oder statistischer Fehler, sondern eine reale Tatsache, die aus komplex verflochtenen genetischen und umweltbedingten Faktoren entsteht
Je größer die Stichprobe wird, desto eher zeigen sich bei den meisten Variablenpaaren signifikante Korrelationen, sodass Forschende eher auf das Korrelationsmuster selbst als auf einzelne Korrelationen achten
Der „Crud factor“ bedeutet, dass zwischen fast allen Variablenpaaren kleine Korrelationen bestehen, sodass allein durch die Auswahl einer beliebigen Theorie und eines beliebigen Variablenpaars mit hoher Wahrscheinlichkeit signifikante Ergebnisse entstehen
In einer solchen Situation verliert das traditionelle Signifikanzniveau (0,05) an Aussagekraft, was bei der statistischen Interpretation in den Sozialwissenschaften Vorsicht erfordert

Überblick und Hintergrund

In Psychologie und Soziologie gilt die Behauptung „Alles ist in gewissem Maß miteinander korreliert“ weithin als akzeptiert
Bestimmte Merkmale werden durch verschiedene genetische und umweltbedingte Faktoren bestimmt, und auch zwischen diesen Faktoren bestehen wiederum eigene Korrelationen
Daher weist praktisch fast jede messbare Variable in gewissem Umfang wechselseitige Zusammenhänge auf

„Crud factor“ und statistische Befunde

Der „Crud factor“ bezeichnet in der Forschung der Sozialwissenschaften (und teils auch der Lebenswissenschaften) das Phänomen, dass selbst zwischen beliebigen Variablenpaaren immer kleine Korrelationen bestehen
In einem großen Datensatz aus dem Jahr 1966 mit 57.000 Highschool-Schülern aus Minnesota waren bei der Analyse von 105 Kreuztabellen (crosstabulations) zu Variablen wie Familie, Bildung, Freizeitaktivitäten, Berufsplänen und Religion sämtliche Ergebnisse statistisch signifikant
- Bei 96 % der Gesamtheit konnte Zufall mit einer extrem niedrigen Wahrscheinlichkeit auf dem Niveau von p<10⁻⁶ ausgeschlossen werden
Wird die Zahl der Variablen auf 45 erweitert, sind von insgesamt 990 Kombinationen 92 % statistisch signifikant
- Der Median signifikanter Beziehungen zwischen einer Variablen und allen übrigen Variablen beträgt 41 von 44

Beispiele aus realen Variablen

Auch bei den Beziehungen von MCAT-Ergebnissen zu Geschwisterzahl, Geburtsreihenfolge, Geschlecht, Berufsplänen, Religionspräferenz usw. wurde durchweg eine hohe statistische Signifikanz festgestellt
- Beispiele: Studentinnen erzielen höhere Werte als Studenten, mit steigender Geschwisterzahl sinken die Werte tendenziell, Erstgeborene/Einzelkinder sind klüger als Jüngste, zwischen Religionsgruppen gibt es deutliche Unterschiede usw.
Auch innerhalb von fünf repräsentativen protestantischen Konfessionen wurde in den Beziehungen zu verschiedenen Variablen hohe Signifikanz beobachtet
- Beispiele: Einzelkinder sind fast doppelt so wahrscheinlich Presbyterianer wie Baptisten, außerdem gibt es zahlreiche Korrelationen bei Schulpräferenzen und Berufswünschen je nach Konfession

Beispiel mit MMPI-Items

Von 550 MMPI-Items (Persönlichkeitstest) zeigen 507 (92 %) signifikante Unterschiede nach Geschlecht
- Bei einigen Items lassen sich deutliche Tendenzunterschiede klar erklären, bei anderen sind die Gründe komplex oder nicht erklärbar
Da solche Ergebnisse in groß angelegten Studien mit sehr großen Stichproben auftreten, handelt es sich nicht um einen statistischen Fehler (Typ-I-Fehler), sondern um ein reales Phänomen

Grenzen sozialwissenschaftlicher Korrelationen und der Theorieprüfung

Selbst wenn man eine beliebige Theorie und Variablenpaare zufällig kombiniert, kann bei einer durchschnittlichen Korrelation (crud factor) von 0,30 praktisch in etwa jedem dritten Fall ein signifikanter Unterschied gefunden werden
- Solche Phänomene treten viel häufiger auf als das in den Sozialwissenschaften üblicherweise als bedeutsam betrachtete Signifikanzniveau (0,05)
Da sich Korrelationen auch bei Variablenpaaren leicht zeigen, die Forschende theoretisch nicht vorhergesagt haben, ist es schwierig, allein mit statistischer Signifikanz eine tatsächliche Kausalbeziehung zu stützen
Komplexe Ursachen (Gene/Umwelt) und der Reichtum an Beobachtungsdaten erzeugen diese vielschichtigen Korrelationen

Praktische Schlussfolgerungen

Bei der Interpretation sozialwissenschaftlicher Daten und der Prüfung von Theorien sollte man den durch den „crud factor“ bedingten „gewöhnlichen, aber real existierenden Korrelationen“ stets Rechnung tragen
Statt Signifikanzstatistiken (z. B. p<0.05) blind zu vertrauen, ist ein Ansatz nötig, der sich stärker auf die tatsächliche Kausalität zwischen Variablen und die Interpretation von Mustern konzentriert
Wie Thorndikes Bonmot sagt: „Alle guten Dinge neigen dazu, gemeinsam aufzutreten“ — in der realen Welt ist zu vieles miteinander verflochten

1 Kommentare

GN⁺ 2025-08-24

Hacker-News-Kommentare

Hier wird über eines der Dinge gesprochen, die mich am meisten stören.
Menschen missverstehen den Ausdruck „statistisch signifikant“ als „bemerkenswert“ oder „bedeutungsvoll“.
Man findet einen gemessenen Unterschied und nimmt dann an, die Statistik sage, dass er „wichtig“ sei — das ist die falsche Herangehensweise.
Tatsächlich sagt ein Signifikanztest nur etwas darüber aus, wie wahrscheinlich es ist, dass der beobachtete Unterschied eine „gute Messung“ ist.
Das heißt: Mit einem gewissen Konfidenzniveau kann man sagen, dass „der Unterschied tatsächlich existiert“.
Ob der gemessene Unterschied auch wertend „bedeutsam“ ist, muss gesondert beurteilt werden, meist anhand der Größe des gemessenen Unterschieds.
Es klingt völlig selbstverständlich, ist aber in der Industrie und in vielen Wissenschaftsbereichen ein sehr häufiger Fehler.
Ein Beispiel wäre: „Diese Maßnahme hat [Metrik] mit p<0.001 verändert, also extrem signifikant! Die Veränderung beträgt 0.000001 %.“
In so einem Fall sollte man noch einmal darüber nachdenken, ob das wirklich „bedeutungsvoll“ ist.
- Wie angemerkt bedeutet signifikant natürlich nicht automatisch „bedeutungsvoll“.
  Zum Beispiel möchte ich aber noch etwas ergänzen.
  Ein sehr kleiner p-Wert bedeutet nicht immer einen „bedeutungsvollen“ Effekt, aber er ist auch nicht völlig unabhängig von der Effektgröße.
  Der p-Wert ergibt sich selbst aus (Effektgröße)/(Rauschen/Quadratwurzel der Stichprobengröße).
  Das heißt, eine größere Teststatistik bedeutet einen kleineren p-Wert.
  Ein sehr kleiner p-Wert entsteht meist entweder durch einen großen Effekt oder durch eine enorm große Stichprobengröße (n).
  Deshalb kann man nur bei extrem großem N auch mit winzigen Effekten p<0.001 erhalten.
  In realen Studien gilt aber oft: Wenn p<0.001 herauskommt, ist der Effekt wegen der begrenzten Stichprobengröße wahrscheinlich tatsächlich groß.
- Using Effect Size—or Why the P Value Is Not Enough
  Darin wird betont, dass statistische Signifikanz der am wenigsten interessante Teil eines Ergebnisses ist und dass man Ergebnisse über die Effektgröße beschreiben sollte.
  Es geht nicht nur darum, ob eine Behandlung wirkt, sondern auch darum, „wie stark“ sie wirkt.
  – Gene V. Glass
- Stimme vollkommen zu.
  Allerdings würde ich das nicht bloß als simples „pet peeve“ bezeichnen, sondern als krankhafte Fehlvorstellung über Statistik.
  Diese Art von Missverständnis kann gerade in populären Gesundheits- und Wellness-Medien zu falschen Schlussfolgerungen führen.
  Studien zu Gesundheit und Ernährung werden als statistisch signifikant berichtet, obwohl der tatsächliche Effekt oft minimal ist.
  Deshalb ändern Menschen auf Basis solcher Studien ihre Lebensweise und Gewohnheiten drastisch, obwohl es dafür in Wirklichkeit kaum eine Grundlage gibt.
- Wenn man N (die Stichprobengröße) nur hoch genug treibt, kann man solche „guten Messwerte“ oder „statistisch signifikanten Unterschiede“ überall finden.
  Noch schlimmer ist es, wenn man nicht vorab festlegt, welche Hypothese geprüft werden soll, sondern alte Datenbestände durchforstet und nur die „statistisch signifikanten“ Korrelationen herauspickt.
- Ich mag dieses Video von 3blue1brown sehr.
  Dort wird vorgeschlagen, Signifikanz als eine Aktualisierung von Wahrscheinlichkeiten zu betrachten.
  Eine einzelne Prüfung (oder Studie) aktualisiert die Wahrscheinlichkeit nur um X %, daher braucht es für ein „bedeutungsvolles“ Urteil meist mehr Experimente.
Ein wirklich typischer Text im „rationalistischen“ Stil.
Neben korrekten Beobachtungen zu statistischen Phänomenen stehen da auch seltsame politische Formulierungen.
Beispielsatz: „Theoretische und empirische Überlegungen werfen Zweifel an kausalen Schlussfolgerungen zu ‚algorithmischer Voreingenommenheit‘ oder ‚geschützten Gruppen‘ auf: Ausschluss ist womöglich weder wünschenswert noch möglich oder sinnvoll.“
Das ist ein sehr merkwürdiger Satz, der ohne Kontext plötzlich auftaucht.
Es klingt fast so, als würde behauptet, weil eine verborgene latente Variable Kriminalität bestimme, könne man in einer Black-Box (einem Parole-Modell) ruhig is_black verwenden — das halte ich für Unsinn.
Tatsächlich ist das Interesse daran, wie ein Modell funktioniert, ein tieferes Problem als die statistische Interpretation selbst.
Wenn der Freiheitsgrad im Modellwahlprozess zu groß wird, kann man ihn so gestalten, dass praktisch jedes gewünschte Ergebnis herauskommt.
Wenn in einem Parole-Modell zum Beispiel eine Variable wie likes_hiphop enthalten ist, muss man prüfen, warum sie enthalten ist und ob das wirklich das „optimale Modell“ war.
Letztlich erinnert die Tatsache, dass in sozialen Phänomenen viele Variablen miteinander korrelieren, daran, dass jedes Modell zumindest teilweise auch ein politisches Produkt sein kann.
- Der Satz, der dir seltsam vorkam, ist im Kontext gar nicht so unpassend.
  Die Formulierung „theoretische und empirische Überlegungen“ bezieht sich auf die vorangegangene Diskussion.
  Gemeint ist: Weil alles mit allem korreliert, kann man aus einer Korrelation allein nicht sicher schließen, dass sie eine wesentliche Bedeutung hat.
  Sozialwissenschaftler bauen komplexe Modelle und beobachten viele Variablen, um Korrelationen zu finden, die ihre Hypothesen stützen; aber solche Korrelationen lassen sich fast überall finden und sind deshalb als Beleg eher schwach.
  Und man kann auch nicht einfach behaupten, dass ein Modell tatsächlich eine Variable wie is_black verwendet hat.
  Nur weil irgendein Black-Box-Modell für Schwarze nachteilige Ergebnisse ausgibt, heißt das nicht automatisch, dass die Variable is_black wirklich darin steckt.
- Ich finde, „Rationalisten“ neigen dazu, auf Rangordnungen von Menschen oder Gruppen fixiert zu sein.
  Gerade bei Themen wie Genetik und IQ sieht man oft, wie mit schwachen Studien und dürftigen Daten weitreichende Schlussfolgerungen gezogen werden.
- Zu diesem Zitat:
  Ich halte theoretischen Hintergrund in der sozialwissenschaftlichen Modellierung für zwingend notwendig, frage mich aber, ob TFA (der Originalartikel) dieselbe Position auch bei bestimmten politischen Themen einnehmen würde.
  Zum Beispiel würde mich interessieren, ob dort das Gleiche gesagt würde, wenn in der Einstellungspraxis einer Organisation für Minderheiten eine Variable wie is_white verwendet würde.
- Ich finde, diese Einschätzung von gwern trifft es genau.
  Es ist ein Stil, bei dem man den Eindruck eigener Intelligenz vermittelt und unbelegte Vermutungen als Tatsachen in den Raum stellt.
  Besonders merkwürdig finde ich auch, wie sehr die Scaling-/AI-Community gwern übermäßig zu mögen scheint.
Schade, dass der Text kein Zitat aus Per Anhalter durch die Galaxis erwähnt.
Es erinnert mich an die Aussage, dass man theoretisch aus einem einzigen Stück Feenkuchen das gesamte Universum, die Sonne, die Planeten, ihre Umlaufbahnen sowie die soziale und ökonomische Geschichte ableiten könnte, weil jede Materie im Universum auf irgendeine Weise miteinander wechselwirkt.
- Damit diese Logik aufgeht, bräuchte man nicht die Konfiguration des Universums bei T_zero (dem Anfangszustand)?
  Unterschiedliche T_zero-Konfigurationen führen zu T_current (dem aktuellen Zustand), und selbst bei derselben physischen Konfiguration könnte der vorherige „Universum-Kuchen“-Zustand unterschiedlich gewesen sein.
  Außerdem setzt das ein vollständig deterministisches System voraus.
- Im Buddhismus gibt es das Konzept des „abhängigen Entstehens“ (Pratītyasamutpāda).
  Erklärung hier
- Teilchen leiden nicht an Fatalismus.
Früher hat man die Wahrheit über die Welt auch ohne Statistik herausgefunden.
Statistik ist seit ihrer Entstehung zwar ein nützliches Werkzeug, aber ihre Übernutzung hat auch das Problem vergrößert, dass Dummheit als Klugheit verpackt wird.
Deshalb ist auch diese Beobachtung von „Korrelationsrauschen“ eine Frage wert.
Vor allem kommen Logik und grundlegendes Domänenwissen zuerst.
Nur Zahlen zu zählen kann meiner Meinung nach leicht zu Missverständnissen führen.
- Auf die Aussage „früher lebte man ohne Statistik“ möchte ich erwidern, dass es damals deutlich schlechter war.
  Nur mit Logik kann man kein neues Wissen lernen.
  Logik erklärt nur neu, was man bereits weiß, und Grundwissen braucht Erfahrung oder Experimente.
  Weil Beobachtungen der realen Welt nie perfekt sind, ist statistische Interpretation unverzichtbar.
  Vor dem Aufkommen der Statistik lief es eher so: (a) Reiche saßen herum und dachten tief über die Welt nach, (b) charismatische Personen predigten, was sie gerne wahr hätten, oder (c) kluge Leute lagen gelegentlich zufällig richtig.
  Mit der Statistik wurde es möglich, dass jeder anhand von Ergebnissen erkennen kann, was richtig oder falsch ist — nicht nur die bereits Mächtigen.
  Einer der Vorteile statistischer Inferenz ist natürlich auch die „intercomparison“, also dass man aus Unterschieden Schlüsse ziehen kann, ohne den Prozess selbst vollständig zu verstehen.
  Aber genau deshalb werden Manipulation und Missverständnisse auch leichter.
- George Lucas hat einmal gesagt, dass Menschen neue Dinge in der Gesellschaft immer exzessiv überstrapazieren.
  Passendes Video
Das hat zwar nichts mit dem Thema zu tun, aber ich finde diesen Blog wirklich wunderschön.
An Dingen wie dem Drop Cap, den Inline-Kommentaren am rechten Bildschirmrand und dem Fortschrittsbalken merkt man die Liebe zum Projekt.
- Der Text von gwern über Drop Caps dürfte dich interessieren.
Das ist wirklich ein riesiger Text.
Ich wünschte, ich könnte selbst einmal so einen gründlichen Text schreiben.
Wenn man sich die anderen Texte des Autors ansieht, wirkt es wirklich so, als würde er wie eine Maschine ununterbrochen produzieren.
- Wenn ich mich richtig erinnere, lebt Gwern sehr bescheiden an einem abgelegenen Ort und kann deshalb viel Zeit in private Forschung stecken.
- Viel Zeit, Wiederholung, Besessenheit von schwierigen Fragen sowie Fachkenntnis in Forschung und Haskell sind sein Geheimnis.
  Natürlich wäre es noch besser, wenn ihn jemand finanziell unterstützen würde.
- Ich wünschte, ich könnte solche Texte wenigstens lesen.
- Ich finde gwern wirklich beeindruckend.
Diese Debatte gibt es schon seit Jahrzehnten.
Es ist wichtig, den kritischen Blick nicht zu verlieren.
Aber je mehr ich mich beruflich mit dieser Art von Logik auseinandersetze, desto mehr wirkt sie auf mich eigentlich wenig nützlich und irgendwie leer.
„Crud“ ist wie die statistische kosmische Hintergrundstrahlung in Mustern vorhanden, und statt es als bedeutungslos abzutun, ist es manchmal auch wichtig.
Manchmal lassen sich Zusammenhänge zwischen Variablen nicht leicht erklären, ein anderes Mal sind sie entscheidend, um potenzielle Störfaktoren zu verstehen, die man kontrollieren muss.
Nicht immer gibt es Korrelationen; es gibt auch Fälle, in denen die wahre Assoziation null ist.
Was als „nicht null und zugleich bedeutsame Effektgröße“ gilt, ist ebenfalls sehr willkürlich und subjektiv.
Es müsste einen produktiveren Rahmen geben, um dieses Phänomen zu betrachten.
Correlated. Noch andere Beispiele?<i>Everything Is Correlated</i> - frühere Diskussion
- Correlated, richtig?
Deshalb unterscheidet sich experimentelle Wissenschaft von Beobachtungsforschung.
Statistische Analyse liefert nur einen Grund, einer Hypothese mehr Vertrauen zu schenken; ergänzt werden muss das durch einen echten experimentellen Ansatz.
Die Beispiele im Blog stammen meist aus Medizin, Sozialwissenschaften oder Verhaltenswissenschaften — also Bereichen, in denen sauber kontrollierte Experimente schwierig sind oder die Stichprobe zu klein ist, um Kausalität eindeutig festzustellen.
- Die Mikroökonomie hat sich von großen Beobachtungsstudien hin zu experimentellen und quasi-experimentellen Designs entwickelt.
  Natürlich kann man Analysefehler im Design nicht im Nachhinein reparieren (You can’t fix by analysis what you bungled by design - Quelle), aber es geht zumindest in Richtung geringerer Verzerrung.
Zu dem Zitat im Text: „Dadurch wird die Bedeutung von Signifikanztests unklar; sie bestehen lediglich darin, die Wahrscheinlichkeit der Daten unter einem Szenario sehr genau zu berechnen, von dem wir a priori wissen, dass es falsch ist.“
Ich denke, es ist völlig üblich, dass Modelle vereinfacht sind und man bei Berechnungen akzeptiert, dass sie streng genommen falsch sind, solange man zu sinnvollen Ergebnissen kommt.
Newtons Gesetze oder die Analyse elektrischer Schaltungen sind zum Beispiel gerade wegen solcher Vereinfachungen möglich, und auch im Bankwesen hat man früher ein Jahr mit 360 Tagen gerechnet.
Das funktioniert in der Praxis ziemlich gut, deshalb frage ich mich, was ich übersehe.
- Das Problem ist, dass man mit genug Geld jederzeit ein „signifikantes“ Ergebnis erzeugen kann — sprich: wenn man nur ein sehr großes N beschafft.
  Das ist ein ernstes Dilemma, wenn man Forschung als Suche nach Wahrheit versteht.
- Als ich früher einen Tilgungsrechner gebaut habe, gab es allein 47 Varianten für die „day count“-Methode.
  (Zum Beispiel für die Berechnung von Zahlungen in Zeiträumen unter einem Monat.)
- Der maximale Fehler, der durch solche Vereinfachungen entsteht, ist immer bekannt.
  Anders gesagt: Einstein ist eine präzisere Version von Newton.
  So wie die spezielle Relativitätstheorie im Grenzfall niedriger Geschwindigkeiten in die Newtonsche Mechanik übergeht.
  In der Statistik gibt es in Wirklichkeit kein „falsch“; man sollte es eher als „mit x % Wahrscheinlichkeit nicht wahr“ verstehen.
  Wenn man x senken will, muss man „mehr Statistik betreiben“, und der sicherste Weg ist, N zu erhöhen.
  Was der Text völlig falsch macht, ist die Annahme, dass man bei hinreichend großem N Wahrheit und Falschheit absolut behandeln könne.
  Denn dann landet man bei Wahrscheinlichkeiten in der Größenordnung von „würde selbst dann kaum einmal auftreten, wenn das Universum eine Million Mal neu erzeugt würde“.
  In der Realität arbeiten aber die meisten in Sozialwissenschaften, Medizin oder Ökonomie mit sehr kleinem N, daher sind statistische Probleme dort zwangsläufig groß.
  Deshalb versucht man, „mehr Statistik“ zu machen, aber tatsächlich kann man N oft nicht erhöhen und manipuliert stattdessen Zahlen oder erhöht N nur minimal und behauptet dann, das Problem sei gelöst.
- Letztlich ist entscheidend, wie groß der Fehler durch die Vereinfachung quantitativ tatsächlich ist.

Alles steht miteinander in Korrelation (2014–23)

Überblick und Hintergrund

„Crud factor“ und statistische Befunde

Beispiele aus realen Variablen

Beispiel mit MMPI-Items

Grenzen sozialwissenschaftlicher Korrelationen und der Theorieprüfung

Praktische Schlussfolgerungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare