1 Punkte von GN⁺ 2026-01-06 | 1 Kommentare | Auf WhatsApp teilen
  • Der Grund, warum die lineare Regressionsgerade nach der Methode der kleinsten Quadrate bei einfachen Testdaten steiler als erwartet erscheinen kann, liegt in den Eigenschaften des Datengenerierungsprozesses
  • Das Regressionsmodell hat unter der Annahme, dass der Fehlerterm unabhängig von X ist, die Form ( Y = \beta_0 + \beta_1 X + \varepsilon )
  • Je größer die Fehlervarianz, desto stärker nimmt die Streuung der Daten in vertikaler Richtung zu, und die Richtung der Hauptkomponente bei PCA nähert sich zunehmend der Vertikalen
  • Wenn dagegen die Varianz von X viel größer als der Fehler ist, stimmen PCA und OLS-Regressionsgerade nahezu überein
  • Dieser Unterschied entsteht, weil PCA und OLS unterschiedliche Ziele verfolgen (Varianzmaximierung vs. Fehlerminimierung) und je nach Form der Datenverteilung visuell verschiedene Ergebnisse zeigen

Regressionsmodell und Datengenerierungsprozess

  • Einfaches OLS (Methode der kleinsten Quadrate) hat die Form ( Y = \beta_0 + \beta_1 X + \varepsilon ) und setzt voraus, dass X und der Fehlerterm (\varepsilon) unabhängig sind
  • Ist der Fehlerterm 0, liegen alle Punkte auf der Regressionsgeraden, und die Richtung der Hauptkomponente bei PCA ist identisch mit der Regressionsgeraden
  • Fügt man Fehler hinzu, steigt die Varianz in vertikaler Richtung, und PCA wählt unter Berücksichtigung dieser Streuung eine steilere Richtung als Hauptkomponente

Wenn die Fehlervarianz dominiert

  • Aus der Beziehung ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) folgt: Wenn
    ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), konzentriert sich der größte Teil der Variation auf die vertikale Richtung
  • Dann wird die Richtung der Hauptkomponente bei PCA nahezu vertikal, sie erscheint also steiler als die Regressionsgerade
  • Umgekehrt gilt: Wenn ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), stimmen PCA und OLS fast überein

Kovarianzellipse und Verteilungsform

  • Die Kovarianzellipse (covariance ellipse) beschreibt die Form der Daten nur dann gut, wenn ( (X, Y) ) gemeinsam normalverteilt sind
  • Auch wenn die Verteilung von X binär, gleichverteilt, bimodal, dreiecksförmig usw. ist, gilt:
    Ist die Varianz von X groß, stimmen PCA und Regressionsgerade überein; ist der Fehler groß, verschiebt sich PCA in Richtung der Vertikalen
  • Die Ellipse zeigt die Richtungstendenz der Daten, bildet aber Dichte oder tatsächliche Verteilungsform nicht exakt ab

Eigenschaften von X und Modellierungsaspekte

  • In dem Code erzeugt die Funktion make_y_from_x Y entsprechend den OLS-Annahmen aus einer linearen Funktion von X und IID-Gaußschem Rauschen
  • X muss nicht zwingend eine Zufallsvariable sein, sondern kann je nach Versuchsdesign auch fest vorgegeben sein
  • Die Kovarianzellipse behandelt X und Y symmetrisch, der tatsächliche Datengenerierungsprozess ist jedoch asymmetrisch

Kernaussagen

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA und OLS stimmen überein
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA verschiebt sich in Richtung der Vertikalen
  • X muss weder eine Zufallsvariable sein noch normalverteilt
  • PCA fokussiert auf die Richtung der Varianz, OLS auf die Minimierung des Vorhersagefehlers, daher können die Ergebnisse unterschiedlich ausfallen

1 Kommentare

 
GN⁺ 2026-01-06
Hacker-News-Kommentare
  • Die lineare Regression, also Ordinary Least Squares (OLS), nimmt an, dass nur in Y Rauschen vorhanden ist und X exakt ist
    Ein Ansatz, bei dem visuell sowohl in X als auch in Y Rauschen angenommen wird, wird dagegen Total Least Squares (TLS) genannt
  • Ein QuantSci-Professor fragte einmal: „Nennen Sie ein Erhebungsszenario, in dem die x-Daten überhaupt keinen Fehler haben.“
    Deshalb lehrte er, dass man im Allgemeinen Deming-Regression bevorzugen sollte (Deming regression)
    • Bei den meisten Sensordaten ist das Rauschen auf der Y-Achse viel größer als auf der X-Achse
      Bei einem Sensor mit 1-kHz-Sampling ist zum Beispiel das Eigenrauschen des Sensors viel größer als der Clock-Jitter des MCU
    • In der Deming-Regression ist Delta (δ) das Verhältnis der y-Varianz zur x-Varianz
      Wenn die x-Varianz sehr klein ist, wird Delta groß, was zu einem schlecht konditionierten Modell führen kann
    • In meinem Bereich liegt der Messjitter der X-Daten unter 10 ns und ist damit praktisch fehlerfrei
    • OLS ist als BLUE (Best Linear Unbiased Estimator) besonders, weil es der lineare Schätzer mit minimaler Varianz ist
    • Bei den meisten Zeitreihen ist das Rauschen der Zeitmessung vernachlässigbar, aber bei anderen Variablen wie GPS-Koordinaten können komplexe Kopplungseffekte auftreten
  • Die lineare Regression modelliert nur das Rauschen in Y, aber die Ellipse/Eigenvektoren der PCA berücksichtigen das Rauschen in X und Y gleichermaßen
    • Interessant ist, dass in vielen Systemen das Rauschen in Y größer ist als in X
      Bei einem Analog-Digital-Wandler ist zum Beispiel die Zeit dank Quarzoszillator stabil, der Messwert aber nicht
    • Bei der Datenanalyse stellt sich die Frage, ob man zur Bestimmung einer Trendlinie nicht besser die Eigenvektorrichtung der PCA verwenden sollte
    • Es wäre interessant, neuronale Netze zu trainieren, wenn man annimmt, dass sowohl Eingaben als auch Ausgaben Rauschen enthalten
    • Wenn man weiß, dass Y n-mal stärker verrauscht ist als X, fragt man sich, ob man diese Information für ein besseres Fitting nutzen kann
  • Ich habe lange nichts mehr mit Statistik zu tun gehabt und verstehe nicht, warum man unbedingt Quadrate (squares) verwendet
    Es gäbe ja auch Exponenten wie 1, 3 oder 4 — warum taucht immer das Quadrat auf?
    • Die Minimierung der Summe der Quadrate liefert die Maximum-Likelihood-Schätzung (MLE) unter der Annahme, dass die Fehler normalverteilt (iid normal) sind
      Bei einer anderen Fehlerverteilung kann eine andere Verlustfunktion geeigneter sein
      Zum Beispiel arbeitet Huber loss bei kleinen Fehlern quadratisch und bei großen linear und ist dadurch robust gegenüber Ausreißern
      Für die genauen Formeln siehe Boyd & Vandenberghes Convex Optimization, S. 352–353
      Außerdem basiert ANOVA auf dem Satz des Pythagoras, weshalb quadratische Terme wesentlich sind
    • Der Mittelwert minimiert die L2-Norm; betrachtet man OLS aus Sicht von Zufallsvariablen, erscheint L2 daher natürlich als Form zur Schätzung des bedingten Erwartungswerts E[Y|X]
      Das Gauss-Markov-Theorem garantiert, dass dieser Schätzer unverzerrt ist und minimale Varianz hat
    • Beim Exponenten 1 ist die Lösung nicht eindeutig. Für die drei Punkte (0,0), (1,0), (1,1) gilt zum Beispiel: Jedes a zwischen 0 und 1 hat dieselbe Fehlersumme
      Exponenten kleiner als 1 haben die merkwürdige Eigenschaft, einen großen Fehler gegenüber mehreren kleinen zu bevorzugen
      Dagegen ist das Quadrat mathematisch gut handhabbar und hat auch gute numerische Eigenschaften bei der einfachen linearen Regression
    • Im Wikipedia-Artikel zu Least Squares sind verschiedene Ansätze zusammengefasst
      Höhere Potenzen ab der 4. führen zu vielen lokalen Optima, komplizierter Ableitung und geringerer rechnerischer Einfachheit
    • Kurz gesagt: abs ist in der Nähe von 0 nicht differenzierbar, die 4. Potenz ist überempfindlich gegenüber Rauschen, und bei der 3. Potenz geht die Linearität der Varianz verloren
  • Der Großteil dieses Threads ist in StackExchange-Diskussionen bereits gut aufgearbeitet
    Eine wirklich neue Perspektive beizutragen ist nicht einfach
    • Die Antworten auf StackExchange sind bereits ziemlich ausgereift
      Es ist vor allem als mathematische Beobachtung interessant
    • Trotzdem hat es einen Wert, solche Themen hier einzubringen, weil dadurch freier diskutiert werden kann als auf StackExchange
    • Für dieses Forum sind die Antworten vielleicht schon zu ausgereift
  • Least Squares und PCA minimieren unterschiedliche Verlustfunktionen
    Ersteres minimiert die Summe der quadrierten Abstände in Y-Richtung, Letzteres die Summe der quadrierten orthogonalen Abstände zur Geraden
    • Warum scheint die Kleinste-Quadrate-Gerade dann nach unten geneigt zu sein? Die Richtung wirkt beliebig
    • Wenn man Least Squares als Anpassung an eine Gauß-Verteilung versteht, wird es leichter nachvollziehbar
  • Wenn man y auf x regressiert und x auf y, erhält man zwei unterschiedliche Geraden
    Ich habe das im Unterricht entdeckt und war irritiert. Ich fragte mich, ob sich das durch Normalisierung lösen ließe
    • Der richtige Weg, um diese Verzerrung zu vermeiden, ist jedoch nicht Normalisierung, sondern die Verwendung eines koordinatenunabhängigen Regressionsverfahrens
  • Ergänzend zur Begriffsklärung: Ein Kleinste-Quadrate-Modell liefert, unabhängig davon, ob x verrauscht ist oder nicht, Vorhersagen mit mittlerem Fehler 0, also statistisch unverzerrte Vorhersagen
  • Wenn man sich ein Regressionsergebnis ansieht, kann die Linie optisch falsch wirken, obwohl das Modell tatsächlich stimmt
    Um die richtige Steigung zu prüfen, sollte man schauen, ob die Residuen bei einem bestimmten x auf beide Seiten ausgewogen sind
    Wenn man zum Beispiel Daten mit y = 1.5x + noise erzeugt, rekonstruiert die Regressionsgerade die Steigung 1.5 korrekt, auch wenn sie optisch seltsam wirken kann
    • Im Residuenplot lässt sich das am klarsten erkennen
  • Dieses Problem wird oft als Regression Dilution bezeichnet (Wikipedia-Link)
    • Regression Dilution bezeichnet jedoch den Fall, in dem die Regressionsgerade aufgrund von Fehlern in den X-Daten verzerrt wird
      Die Frage auf StackExchange ist, warum die Regressionsgerade selbst ohne Fehler in X nicht mit der 3σ-Ellipsenachse übereinstimmt
      Diese Antwort zeigt ein Beispiel, bei dem der Fehler in X null ist