Warum eine lineare Kleinste-Quadrate-Anpassung bei einfachen Daten verzerrt zu sein scheint

(stats.stackexchange.com)

1 Punkte von GN⁺ 2026-01-06 | Noch keine Kommentare. | Auf WhatsApp teilen

Der Grund, warum die lineare Regressionsgerade nach der Methode der kleinsten Quadrate bei einfachen Testdaten steiler als erwartet erscheinen kann, liegt in den Eigenschaften des Datengenerierungsprozesses
Das Regressionsmodell hat unter der Annahme, dass der Fehlerterm unabhängig von X ist, die Form ( Y = \beta_0 + \beta_1 X + \varepsilon )
Je größer die Fehlervarianz, desto stärker nimmt die Streuung der Daten in vertikaler Richtung zu, und die Richtung der Hauptkomponente bei PCA nähert sich zunehmend der Vertikalen
Wenn dagegen die Varianz von X viel größer als der Fehler ist, stimmen PCA und OLS-Regressionsgerade nahezu überein
Dieser Unterschied entsteht, weil PCA und OLS unterschiedliche Ziele verfolgen (Varianzmaximierung vs. Fehlerminimierung) und je nach Form der Datenverteilung visuell verschiedene Ergebnisse zeigen

Regressionsmodell und Datengenerierungsprozess

Einfaches OLS (Methode der kleinsten Quadrate) hat die Form ( Y = \beta_0 + \beta_1 X + \varepsilon ) und setzt voraus, dass X und der Fehlerterm (\varepsilon) unabhängig sind
Ist der Fehlerterm 0, liegen alle Punkte auf der Regressionsgeraden, und die Richtung der Hauptkomponente bei PCA ist identisch mit der Regressionsgeraden
Fügt man Fehler hinzu, steigt die Varianz in vertikaler Richtung, und PCA wählt unter Berücksichtigung dieser Streuung eine steilere Richtung als Hauptkomponente

Aus der Beziehung ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) folgt: Wenn
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), konzentriert sich der größte Teil der Variation auf die vertikale Richtung
Dann wird die Richtung der Hauptkomponente bei PCA nahezu vertikal, sie erscheint also steiler als die Regressionsgerade
Umgekehrt gilt: Wenn ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), stimmen PCA und OLS fast überein

Die Kovarianzellipse (covariance ellipse) beschreibt die Form der Daten nur dann gut, wenn ( (X, Y) ) gemeinsam normalverteilt sind
Auch wenn die Verteilung von X binär, gleichverteilt, bimodal, dreiecksförmig usw. ist, gilt:
Ist die Varianz von X groß, stimmen PCA und Regressionsgerade überein; ist der Fehler groß, verschiebt sich PCA in Richtung der Vertikalen
Die Ellipse zeigt die Richtungstendenz der Daten, bildet aber Dichte oder tatsächliche Verteilungsform nicht exakt ab

In dem Code erzeugt die Funktion make_y_from_x Y entsprechend den OLS-Annahmen aus einer linearen Funktion von X und IID-Gaußschem Rauschen
X muss nicht zwingend eine Zufallsvariable sein, sondern kann je nach Versuchsdesign auch fest vorgegeben sein
Die Kovarianzellipse behandelt X und Y symmetrisch, der tatsächliche Datengenerierungsprozess ist jedoch asymmetrisch

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA und OLS stimmen überein
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA verschiebt sich in Richtung der Vertikalen
X muss weder eine Zufallsvariable sein noch normalverteilt
PCA fokussiert auf die Richtung der Varianz, OLS auf die Minimierung des Vorhersagefehlers, daher können die Ergebnisse unterschiedlich ausfallen