Warum eine lineare Kleinste-Quadrate-Anpassung bei einfachen Daten verzerrt zu sein scheint
(stats.stackexchange.com)- Der Grund, warum die lineare Regressionsgerade nach der Methode der kleinsten Quadrate bei einfachen Testdaten steiler als erwartet erscheinen kann, liegt in den Eigenschaften des Datengenerierungsprozesses
- Das Regressionsmodell hat unter der Annahme, dass der Fehlerterm unabhängig von X ist, die Form ( Y = \beta_0 + \beta_1 X + \varepsilon )
- Je größer die Fehlervarianz, desto stärker nimmt die Streuung der Daten in vertikaler Richtung zu, und die Richtung der Hauptkomponente bei PCA nähert sich zunehmend der Vertikalen
- Wenn dagegen die Varianz von X viel größer als der Fehler ist, stimmen PCA und OLS-Regressionsgerade nahezu überein
- Dieser Unterschied entsteht, weil PCA und OLS unterschiedliche Ziele verfolgen (Varianzmaximierung vs. Fehlerminimierung) und je nach Form der Datenverteilung visuell verschiedene Ergebnisse zeigen
Regressionsmodell und Datengenerierungsprozess
- Einfaches OLS (Methode der kleinsten Quadrate) hat die Form ( Y = \beta_0 + \beta_1 X + \varepsilon ) und setzt voraus, dass X und der Fehlerterm (\varepsilon) unabhängig sind
- Ist der Fehlerterm 0, liegen alle Punkte auf der Regressionsgeraden, und die Richtung der Hauptkomponente bei PCA ist identisch mit der Regressionsgeraden
- Fügt man Fehler hinzu, steigt die Varianz in vertikaler Richtung, und PCA wählt unter Berücksichtigung dieser Streuung eine steilere Richtung als Hauptkomponente
Wenn die Fehlervarianz dominiert
- Aus der Beziehung ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) folgt: Wenn
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), konzentriert sich der größte Teil der Variation auf die vertikale Richtung - Dann wird die Richtung der Hauptkomponente bei PCA nahezu vertikal, sie erscheint also steiler als die Regressionsgerade
- Umgekehrt gilt: Wenn ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), stimmen PCA und OLS fast überein
Kovarianzellipse und Verteilungsform
- Die Kovarianzellipse (covariance ellipse) beschreibt die Form der Daten nur dann gut, wenn ( (X, Y) ) gemeinsam normalverteilt sind
- Auch wenn die Verteilung von X binär, gleichverteilt, bimodal, dreiecksförmig usw. ist, gilt:
Ist die Varianz von X groß, stimmen PCA und Regressionsgerade überein; ist der Fehler groß, verschiebt sich PCA in Richtung der Vertikalen - Die Ellipse zeigt die Richtungstendenz der Daten, bildet aber Dichte oder tatsächliche Verteilungsform nicht exakt ab
Eigenschaften von X und Modellierungsaspekte
- In dem Code erzeugt die Funktion
make_y_from_xY entsprechend den OLS-Annahmen aus einer linearen Funktion von X und IID-Gaußschem Rauschen - X muss nicht zwingend eine Zufallsvariable sein, sondern kann je nach Versuchsdesign auch fest vorgegeben sein
- Die Kovarianzellipse behandelt X und Y symmetrisch, der tatsächliche Datengenerierungsprozess ist jedoch asymmetrisch
Kernaussagen
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA und OLS stimmen überein
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA verschiebt sich in Richtung der Vertikalen
- X muss weder eine Zufallsvariable sein noch normalverteilt
- PCA fokussiert auf die Richtung der Varianz, OLS auf die Minimierung des Vorhersagefehlers, daher können die Ergebnisse unterschiedlich ausfallen
1 Kommentare
Hacker-News-Kommentare
Ein Ansatz, bei dem visuell sowohl in X als auch in Y Rauschen angenommen wird, wird dagegen Total Least Squares (TLS) genannt
Deshalb lehrte er, dass man im Allgemeinen Deming-Regression bevorzugen sollte (Deming regression)
Bei einem Sensor mit 1-kHz-Sampling ist zum Beispiel das Eigenrauschen des Sensors viel größer als der Clock-Jitter des MCU
Wenn die x-Varianz sehr klein ist, wird Delta groß, was zu einem schlecht konditionierten Modell führen kann
Bei einem Analog-Digital-Wandler ist zum Beispiel die Zeit dank Quarzoszillator stabil, der Messwert aber nicht
Es gäbe ja auch Exponenten wie 1, 3 oder 4 — warum taucht immer das Quadrat auf?
Bei einer anderen Fehlerverteilung kann eine andere Verlustfunktion geeigneter sein
Zum Beispiel arbeitet Huber loss bei kleinen Fehlern quadratisch und bei großen linear und ist dadurch robust gegenüber Ausreißern
Für die genauen Formeln siehe Boyd & Vandenberghes Convex Optimization, S. 352–353
Außerdem basiert ANOVA auf dem Satz des Pythagoras, weshalb quadratische Terme wesentlich sind
Das Gauss-Markov-Theorem garantiert, dass dieser Schätzer unverzerrt ist und minimale Varianz hat
Exponenten kleiner als 1 haben die merkwürdige Eigenschaft, einen großen Fehler gegenüber mehreren kleinen zu bevorzugen
Dagegen ist das Quadrat mathematisch gut handhabbar und hat auch gute numerische Eigenschaften bei der einfachen linearen Regression
Höhere Potenzen ab der 4. führen zu vielen lokalen Optima, komplizierter Ableitung und geringerer rechnerischer Einfachheit
Eine wirklich neue Perspektive beizutragen ist nicht einfach
Es ist vor allem als mathematische Beobachtung interessant
Ersteres minimiert die Summe der quadrierten Abstände in Y-Richtung, Letzteres die Summe der quadrierten orthogonalen Abstände zur Geraden
Ich habe das im Unterricht entdeckt und war irritiert. Ich fragte mich, ob sich das durch Normalisierung lösen ließe
Um die richtige Steigung zu prüfen, sollte man schauen, ob die Residuen bei einem bestimmten x auf beide Seiten ausgewogen sind
Wenn man zum Beispiel Daten mit y = 1.5x + noise erzeugt, rekonstruiert die Regressionsgerade die Steigung 1.5 korrekt, auch wenn sie optisch seltsam wirken kann
Die Frage auf StackExchange ist, warum die Regressionsgerade selbst ohne Fehler in X nicht mit der 3σ-Ellipsenachse übereinstimmt
Diese Antwort zeigt ein Beispiel, bei dem der Fehler in X null ist