1 Punkte von GN⁺ 2026-01-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Der Grund, warum die lineare Regressionsgerade nach der Methode der kleinsten Quadrate bei einfachen Testdaten steiler als erwartet erscheinen kann, liegt in den Eigenschaften des Datengenerierungsprozesses
  • Das Regressionsmodell hat unter der Annahme, dass der Fehlerterm unabhängig von X ist, die Form ( Y = \beta_0 + \beta_1 X + \varepsilon )
  • Je größer die Fehlervarianz, desto stärker nimmt die Streuung der Daten in vertikaler Richtung zu, und die Richtung der Hauptkomponente bei PCA nähert sich zunehmend der Vertikalen
  • Wenn dagegen die Varianz von X viel größer als der Fehler ist, stimmen PCA und OLS-Regressionsgerade nahezu überein
  • Dieser Unterschied entsteht, weil PCA und OLS unterschiedliche Ziele verfolgen (Varianzmaximierung vs. Fehlerminimierung) und je nach Form der Datenverteilung visuell verschiedene Ergebnisse zeigen

Regressionsmodell und Datengenerierungsprozess

  • Einfaches OLS (Methode der kleinsten Quadrate) hat die Form ( Y = \beta_0 + \beta_1 X + \varepsilon ) und setzt voraus, dass X und der Fehlerterm (\varepsilon) unabhängig sind
  • Ist der Fehlerterm 0, liegen alle Punkte auf der Regressionsgeraden, und die Richtung der Hauptkomponente bei PCA ist identisch mit der Regressionsgeraden
  • Fügt man Fehler hinzu, steigt die Varianz in vertikaler Richtung, und PCA wählt unter Berücksichtigung dieser Streuung eine steilere Richtung als Hauptkomponente

Wenn die Fehlervarianz dominiert

  • Aus der Beziehung ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) folgt: Wenn
    ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), konzentriert sich der größte Teil der Variation auf die vertikale Richtung
  • Dann wird die Richtung der Hauptkomponente bei PCA nahezu vertikal, sie erscheint also steiler als die Regressionsgerade
  • Umgekehrt gilt: Wenn ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), stimmen PCA und OLS fast überein

Kovarianzellipse und Verteilungsform

  • Die Kovarianzellipse (covariance ellipse) beschreibt die Form der Daten nur dann gut, wenn ( (X, Y) ) gemeinsam normalverteilt sind
  • Auch wenn die Verteilung von X binär, gleichverteilt, bimodal, dreiecksförmig usw. ist, gilt:
    Ist die Varianz von X groß, stimmen PCA und Regressionsgerade überein; ist der Fehler groß, verschiebt sich PCA in Richtung der Vertikalen
  • Die Ellipse zeigt die Richtungstendenz der Daten, bildet aber Dichte oder tatsächliche Verteilungsform nicht exakt ab

Eigenschaften von X und Modellierungsaspekte

  • In dem Code erzeugt die Funktion make_y_from_x Y entsprechend den OLS-Annahmen aus einer linearen Funktion von X und IID-Gaußschem Rauschen
  • X muss nicht zwingend eine Zufallsvariable sein, sondern kann je nach Versuchsdesign auch fest vorgegeben sein
  • Die Kovarianzellipse behandelt X und Y symmetrisch, der tatsächliche Datengenerierungsprozess ist jedoch asymmetrisch

Kernaussagen

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA und OLS stimmen überein
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA verschiebt sich in Richtung der Vertikalen
  • X muss weder eine Zufallsvariable sein noch normalverteilt
  • PCA fokussiert auf die Richtung der Varianz, OLS auf die Minimierung des Vorhersagefehlers, daher können die Ergebnisse unterschiedlich ausfallen

Noch keine Kommentare.

Noch keine Kommentare.