- Der Grund, warum die lineare Regressionsgerade nach der Methode der kleinsten Quadrate bei einfachen Testdaten steiler als erwartet erscheinen kann, liegt in den Eigenschaften des Datengenerierungsprozesses
- Das Regressionsmodell hat unter der Annahme, dass der Fehlerterm unabhängig von X ist, die Form ( Y = \beta_0 + \beta_1 X + \varepsilon )
- Je größer die Fehlervarianz, desto stärker nimmt die Streuung der Daten in vertikaler Richtung zu, und die Richtung der Hauptkomponente bei PCA nähert sich zunehmend der Vertikalen
- Wenn dagegen die Varianz von X viel größer als der Fehler ist, stimmen PCA und OLS-Regressionsgerade nahezu überein
- Dieser Unterschied entsteht, weil PCA und OLS unterschiedliche Ziele verfolgen (Varianzmaximierung vs. Fehlerminimierung) und je nach Form der Datenverteilung visuell verschiedene Ergebnisse zeigen
Regressionsmodell und Datengenerierungsprozess
- Einfaches OLS (Methode der kleinsten Quadrate) hat die Form ( Y = \beta_0 + \beta_1 X + \varepsilon ) und setzt voraus, dass X und der Fehlerterm (\varepsilon) unabhängig sind
- Ist der Fehlerterm 0, liegen alle Punkte auf der Regressionsgeraden, und die Richtung der Hauptkomponente bei PCA ist identisch mit der Regressionsgeraden
- Fügt man Fehler hinzu, steigt die Varianz in vertikaler Richtung, und PCA wählt unter Berücksichtigung dieser Streuung eine steilere Richtung als Hauptkomponente
Wenn die Fehlervarianz dominiert
- Aus der Beziehung ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) folgt: Wenn
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), konzentriert sich der größte Teil der Variation auf die vertikale Richtung
- Dann wird die Richtung der Hauptkomponente bei PCA nahezu vertikal, sie erscheint also steiler als die Regressionsgerade
- Umgekehrt gilt: Wenn ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), stimmen PCA und OLS fast überein
Kovarianzellipse und Verteilungsform
- Die Kovarianzellipse (covariance ellipse) beschreibt die Form der Daten nur dann gut, wenn ( (X, Y) ) gemeinsam normalverteilt sind
- Auch wenn die Verteilung von X binär, gleichverteilt, bimodal, dreiecksförmig usw. ist, gilt:
Ist die Varianz von X groß, stimmen PCA und Regressionsgerade überein; ist der Fehler groß, verschiebt sich PCA in Richtung der Vertikalen
- Die Ellipse zeigt die Richtungstendenz der Daten, bildet aber Dichte oder tatsächliche Verteilungsform nicht exakt ab
Eigenschaften von X und Modellierungsaspekte
- In dem Code erzeugt die Funktion
make_y_from_x Y entsprechend den OLS-Annahmen aus einer linearen Funktion von X und IID-Gaußschem Rauschen
- X muss nicht zwingend eine Zufallsvariable sein, sondern kann je nach Versuchsdesign auch fest vorgegeben sein
- Die Kovarianzellipse behandelt X und Y symmetrisch, der tatsächliche Datengenerierungsprozess ist jedoch asymmetrisch
Kernaussagen
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA und OLS stimmen überein
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA verschiebt sich in Richtung der Vertikalen
- X muss weder eine Zufallsvariable sein noch normalverteilt
- PCA fokussiert auf die Richtung der Varianz, OLS auf die Minimierung des Vorhersagefehlers, daher können die Ergebnisse unterschiedlich ausfallen
Noch keine Kommentare.