Die Wahrheit über lineare Regression im Jahr 2015

(stat.cmu.edu)

1 Punkte von GN⁺ 2024-08-01 | 1 Kommentare | Auf WhatsApp teilen

Basierend auf den Vorlesungsnotizen zu Carnegie Mellons 36-401 Modern Regression aus dem Herbst 2015 ist dies ein Lernmanuskript für alle, die lineare Regression lernen oder lehren
Es hält lineare Regression nicht an Annahmen im Stil der 1960er-Jahre fest und reduziert den Anteil der Theorie, die auf gaußschem Rauschen (Gaussian noise) und korrekt spezifizierten linearen Modellen beruht
Es legt Wert auf robuste Methoden, auch wenn diese rechenintensiver sind, und merkt an, dass das Manuskript selbst möglicherweise noch nicht weit genug in diese Richtung geht
Es überschneidet sich teilweise mit dem zweiten Kapitel von Advanced Data Analysis from an Elementary Point of View, enthält aber auch viel neues Material auf niedrigerem Niveau
Das Inhaltsverzeichnis reicht breit von optimaler Vorhersage, Least Squares, Maximum Likelihood, Diagnostik, Inferenz, Multikollinearität, Modellauswahl, gewichteten und generalisierten Least Squares, Variablenauswahl, Bäumen bis zum Bootstrap

Charakter und Ansatz des Manuskripts

Dieses Manuskript ist eine Sammlung von Vorlesungsnotizen zu 36-401, Modern Regression, im Herbst 2015
Obwohl es bereits viele Materialien zur linearen Regression gibt, wurde es veröffentlicht, weil es für Lernende oder Lehrende hilfreich sein könnte
Aus der Perspektive, dass sich die Statistik seit 1960 weiterentwickelt hat, betont es weniger stark Theorien, die sich auf korrekt spezifizierte lineare Modelle und gaußsches Rauschen stützen
Es ist in Richtung rechenintensiverer, aber robuster Methoden angelegt; der Autor fügt hinzu, dass er damit möglicherweise noch nicht weit genug gegangen ist
Es überschneidet sich teilweise mit Advanced Data Analysis from an Elementary Point of View, insbesondere mit dem zweiten Kapitel „The Truth About Linear Regression“
Gleichzeitig enthält es viel neues Material auf niedrigerem Niveau und bittet um Meinungen und Korrekturen, insbesondere um Fehlerkorrekturen

Umfang und Updates

Das aktuelle Inhaltsverzeichnis reicht von grundlegender Modellierung linearer Regression bis zu Diagnostik, Inferenz und erweiterten Methoden
Grundlegende Modellierung und einfache Regression
- Optimal Prediction
- Introducing Statistical Modeling
- Simple Linear Regression Models, with Hints at Their Estimation
- The Method of Least Squares for Simple Linear Regression
- The Method of Maximum Likelihood for Simple Linear Regression
- Diagnostics and Modifications for Simple Regression
- Inference on Parameters
- Predictive Inference for the Simple Linear Model
- Interpreting Parameters after Transformation
- F-Tests, R^2, and Other Distractions
- Simple Linear Regression in Matrix Format
Multiple Regression und erweiterte Themen
- Multiple Linear Regression
- Diagnostics and Inference for Multiple Linear Regression
- Polynomial and Categorical Regression
- Multicollinearity
- Tests and Confidence Sets
- Interactions
- Outliers and Influential Points
- Model Selection
- Review
- Weighted and Generalized Least Squares
- Variable Selection
- Trees
- The Bootstrap I
- The Bootstrap II
- Künftig könnten Materialien zu linear spatio-temporal estimation and prediction aus dem Kurs Data Over Space and Time in das Manuskript aufgenommen werden
- Als Beispiele werden Wiener filter und kriging genannt
- Das letzte Text-Update bestand darin, den Code nach einem R-Update erneut auszuführen und Tippfehler zu korrigieren; das Datum ist der 20. Oktober 2025

1 Kommentare

GN⁺ 2024-08-01

Hacker-News-Kommentare

Lineare Regression wird oft unterschätzt
1. Alle gängigen statistischen Tests sind lineare Modelle: https://lindeloev.github.io/tests-as-linear/
2. Ein lineares Modell bedeutet, dass es linear in den Parametern, nicht im Response-Wert ist. Zum Beispiel ist auch y = a*sin(x)+bx^2 ein lineares Modell
3. Wenn man eine geeignete Spline-Basis wählt, lassen sich viele nichtlineare Beziehungen zwischen Prädiktoren und Response-Wert ebenfalls mit linearen Modellen modellieren
4. Falls die Flexibilität trotzdem nicht ausreicht, ist eine lineare Beziehung nach dem Satz von Taylor oft eine gute Approximation einer nichtlinearen Beziehung
- Ich stimme diesen Punkten voll und ganz zu, und lineare Modelle sollten viel mehr Anerkennung bekommen
  Ein weiterer wichtiger Punkt ist, dass Menschen, insbesondere Gruppen, rational eigentlich nur lineare Entscheidungen treffen können
  In einem Meeting zur Ausrichtung eines Unternehmens kann man nur Dinge sagen wie: „Wir erhöhen die Werbeausgaben und senken andere Akquisitionskosten wie Rabattgutscheine.“ Das Gleichgewicht zwischen „höheren Werbeausgaben“ und „niedrigeren anderen Kosten“ zu finden, ist ein einfaches lineares Modell
  Selbst wenn man ein hervorragendes nichtlineares Modell hat, geht es im Kern weniger um „Interpretierbarkeit“ als um Umsetzbarkeit. Wenn man Regressionsergebnisse in ein Meeting mitbringt, kann man schnell mehrere Strategien modellieren und eine rationale Sicherheit über die Richtung vermitteln
  Ich hatte Schwierigkeiten, umsetzbare Insights nach oben weiterzugeben, aber nachdem ich Regression richtig verstanden hatte, wurde es erstaunlich einfach, auch ziemlich komplexe Geschäftsprozesse schnell aufzuschließen und zu verstehen
- Im Zusammenhang mit Punkt 3 habe ich in der akademischen Forschung und in der Industriearbeit generalisierte additive Modelle technisch ziemlich erfolgreich eingesetzt. Das heißt, sie passten gut zu den Daten
  Trotzdem haben Stakeholder sie nur selten richtig verstanden oder ihren Wert anerkannt. Ich denke, das lag meist an Bequemlichkeit und Gewohnheit
- Falls es nützliche Referenzen zu Punkt 3 gibt, wäre ich interessiert
  Ein Problem, das ich in der Literatur häufig sehe, ist, dass Autoren die Steigung von Modellen mit quadratischem Term, zum Beispiel Y = age + age^2, in den niedrigsten und höchsten Altersgruppen überinterpretieren. Wenn man im Diagramm nur die Linie und nicht das Konfidenzintervall betrachtet, sieht es bei den Ältesten nach einem Rückgang aus, tatsächlich kann die scheinbar negative Steigung aber dadurch entstehen, dass ein quadratisches Modell keine Asymptote darstellen kann. Beispiel: https://www.researchgate.net/figure/Scatter-plot-of-the-quad...)
  Wenn es keine theoretisch vorgegebene Wahl gab, habe ich fraktionale Polynome verwendet. Zum Beispiel bei x^s mit s = {−2, −1, −0.5, 0, 0.5, 1, 2, 3} und einer Strategie, das am besten passende Polynom zu wählen, ohne Overfitting zu erzeugen: https://journal.r-project.org/articles/RN-2005-017/RN-2005-0...
  Das ist keine schlechte Methode, und ich habe auch andere Ansätze wie stückweise polynomiale Regression oder Knotenpunkte ausprobiert, aber ich wusste zum Beispiel nicht so recht, wie man eine Gruppeninteraktion zwischen zwei Splines mit Knoten testen sollte. Bei additiven Modellen war es ähnlich: https://bookdown.org/ssjackson300/Machine-Learning-Lecture-N...
- Aus der richtigen Perspektive ist auch SVM ein rein lineares Modell, und sehr reduktionistisch betrachtet kann man sagen, dass ReLU-Neuronale-Netze stückweise linear sind
  Allerdings verschleiert diese Art der Erklärung möglicherweise mehr, als sie hilft. Die passende Transformation für einen konkreten Fall auszuwählen, ist ein sehr schwieriges Problem. Es bleibt die Frage, warum es sin(x) und x^2 sein sollen und nicht tanh(x) und x^(1/2)
- Ich habe kaum mathematische Kenntnisse, daher überrascht mich Punkt 2. Eine kurze Suche sagt, dass ein lineares Modell als Graph eine Gerade ergeben müsse, aber die als Beispiel genannte Gleichung ist keine Gerade
  Ich glaube, mir entgeht da etwas Grundlegendes
Die wichtigste Technik bei Regression ist, den Achsenabschnitt zu erkennen. Das klingt trivial und ist es eigentlich auch, aber sobald man anfängt, Interaktionen zwischen Termen einzubauen, ändert sich das. Ich habe wirklich oft gesehen, wie junge Doktoranden das falsch machen.
Betrachten wir ein einfaches lineares Modell mit Testergebnis, Alter (7–16 Jahre) und der binären kategorialen Variable Autismusdiagnose (0 = Kontrollgruppe, 1 = Autismus): score = age + diagnosis + age:diagnosis, also score = (X1)age + (X2)diagnosis + (X3)age:diagnosis.
Wenn X2 signifikant ist, sagt ein naiver Student: „Es gibt einen Gruppenunterschied!“, übersieht aber, dass das der vorhergesagte Gruppenunterschied im Alter von 0 Jahren ist. Das Alter sollte am Mittelwert, Median oder besser an einem Alter von Interesse zentriert werden. Sobald eine Interaktion in die Gleichung aufgenommen wird, werden alle Parameterschätzungen „niedrigerer Ordnung“ relativ zum Achsenabschnitt interpretiert.
Man könnte auch sehen, dass der Alterseffekt signifikant ist, und denken, er gelte für beide Gruppen, aber X1 beschreibt nur die vorhergesagte Steigung der Referenzgruppe, also der Kontrollgruppe. Die Interaktion testet, ob sich die Alterssteigungen der beiden Gruppen unterscheiden. Außerdem kann der Alterseffekt in der Autismusgruppe selbst dann nicht signifikant von 0 verschieden sein, wenn die Interaktion nicht signifikant ist. Wenn die Daten in einem uneindeutigen Bereich liegen, muss man bei der Interpretation vorsichtig sein.
Für manche mag das offensichtlich wirken, aber es braucht Mühe, den bedingten Raum der Parameter bei Interaktionstermen richtig zu verstehen. Hier habe ich Codierungsarten für Gruppen, etwa ob man sich auf den Gesamtmittelwert oder auf eine Gruppe als Referenz bezieht, erst einmal ignoriert; die Lektion bleibt aber dieselbe. Man muss verstehen, was der Achsenabschnitt bedeutet und auf wen/was er sich bezieht.
- Modelle mit Interaktionstermen finde ich immer schwer intuitiv zu erfassen. Meist hilft es bei der Interpretation, für jede Antwortklasse aufzuschreiben, welche Terme des Modells eingehen.
  Es gibt auch ExploreModelMatrix, das dabei hilft: https://www.bioconductor.org/packages/release/bioc/html/Expl...
- Wenn ich oben etwas Seltsames gesagt habe, sagt gern Bescheid. Ich lerne noch.
  Wenn ihr überzeugte Bayesianer seid, die p-Werte hassen, ist das auch okay. Ich habe nur oft gesehen, dass auch kluge Studierende Schwierigkeiten haben, Modelle mit Interaktionstermen intuitiv zu interpretieren, und wollte in die richtige Richtung weisen.
- Es stimmt nicht, dass „X1 nur die vorhergesagte Steigung der Kontrollgruppe als Referenzgruppe beschreibt“. In der Gleichung, wie sie geschrieben ist, ist X1 ein Wert für die Gesamtgruppe. Es wurden keine richtigen Dummy-Variablen gebildet.
  X1*age*isControl+X2*isControl+X3*isAutism+X4*isAutism*age+X5*age
  So müsste man es machen, um die Alterseffekte der beiden Gruppen und den beiden Gruppen gemeinsamen Alterseffekt zu trennen.
- Diese Interpretation scheint mir richtig zu sein.
  Eine signifikante Ladung der Diagnosevariable X2 sagt nichts über den Diagnoseeffekt in einem bestimmten Alter aus. Außer eben bei Alter 0.
  Man muss das Modell um das Alter von Interesse herum neu zentrieren.
Vor 10 Jahren habe ich an der CMU 36-401 und 36-402 belegt; Shalizi hat sie damals unterrichtet, und beides waren sehr gute Statistikveranstaltungen. Im Guten wie im Schlechten haben sie einen dazu gebracht, base R zu lernen.
Die große Schwäche der linearen Regression war, wie ich auf die harte Tour gelernt habe, dass die akademischen Annahmen, die man braucht, um Koeffizienten gültig zu interpretieren, bei kleinen Lehrdatensätzen leicht herzustellen sind, auf schmutzige reale Daten aber kaum zutreffen.
- Kommt darauf an. Die wichtigste Annahme ist die Unabhängigkeit der Beobachtungen.
  Wenn sie nicht gegeben ist, sollte man ein Mixed-Effects-Modell verwenden, um korrelierte Antworten abzubilden, oder die Antworten mitteln und aggregieren. Wenn man Mittelwerte berechnet, sinkt zwar die Varianz, aber auch die Zahl der Datenpunkte; bei der Berechnung der t-Statistik des Wald-Tests heben sich diese beiden Effekte gegenseitig auf.
  Bei anderen Annahmen wie der Normalverteilung der Residuen tolerieren lineare Modelle Verstöße oft bis zu einem gewissen Grad. Trotzdem ist es immer gut zu verstehen, welche Auswirkungen solche Verstöße haben, etwa indem man Simulationen durchführt oder sich Histogramme der p-Werte unter Nulldaten ansieht.
- Umgekehrt reicht bei schmutzigen realen Daten oft ein ausreichend gutes Modell, statt sich daran festzubeißen, was der p-Wert nun genau sagt.
Mir gefällt, dass Ridge-Regression im Kontext von Multikollinearität vorgestellt wird.
Heutzutage scheint fast jeder sie als Regularisierungstechnik zur Vermeidung von Overfitting zu lernen, aber einer ihrer grundlegenden Einsatzzwecke und vermutlich ihr Ursprung liegt darin, Gewichte zwischen stark korrelierten oder nahezu linear abhängigen Prädiktoren ausgewogen aufzuteilen. Selbst mit ausreichend vielen Daten können solche Prädiktoren große Probleme verursachen.
Ich würde gern sehen, wie jemand wie ein Quant-Researcher von Citadel lineare Regression unterrichtet. Mich interessiert, wie sie sie verwenden, worauf sie insbesondere achten und ob es theoretische Ergebnisse gibt, die ihre Sicht auf Probleme spürbar verändern.
- Ich habe ein wenig einschlägige Erfahrung. Regularisierte Varianten sind unverzichtbar. Es gibt zu wenige Stichproben, und pro Stichprobe zu viel Rauschen.
  Beim verwandten Problem der Schätzung von Kovarianzmatrizen sind Shrinkage-Varianten beliebt. Die einfachste ist Ledoit-Wolfs Linear Shrinkage.
  Abgesehen von neuronalen Netzen verwenden die meisten Leute, die Regression betreiben, meiner Ansicht nach lineare Regression mit solchen domänenspezifischen Anpassungen.
  Gerade in der Finanzwelt ist es viel zu leicht, sich mit komplexeren Modellen selbst zu täuschen.
- Lineare Regression, und zwar Regression mit nur einem Prädiktor, ist das wichtigste Werkzeug. Es ist, als ob das Kreuzprodukt x'*y allein nicht ausreicht, die Division durch das Skalarprodukt x'*x genau richtig ist (Regression), und wenn man dann noch einmal durch ein weiteres Skalarprodukt y'*y teilt, ist es mit der Quadratwurzel schon der Korrelationskoeffizient und fühlt sich übertrieben an.
  Leider gibt es kein großes Geheimnis und keine spektakuläre Enthüllung. Wie Jim Simons im Numberphile-Interview sagte, geht es darum, schwache Signale langsam und mühsam anzuhäufen und viele Bausteine des Systems zu bauen und zu verbessern. Die Schnittstellen dazwischen sind im Großen und Ganzen bekannt.
  Im Gesamtbild bringt die Anpassungsmethode selbst keinen enormen Vorteil. Sie sollte es zumindest nicht kaputtmachen.
  Ich war zwar nicht bei Citadel, habe aber in den letzten 20 Jahren Quant-Research-&-Development und Trading gemacht.
Im Studium musste ich lineare Regression in mehreren Kursen immer wieder neu lernen. Interessant ist natürlich, dass man ihre Optimalität mit Statistik- und Wahrscheinlichkeitstheorie beweisen kann, sofern die Annahmen gelten.
Im Informatik-Promotionsstudium habe ich vor allem Regressionsprobleme gesehen, die Deep-Learning-Modelle verwenden. Ich habe nicht direkt daran gearbeitet, aber es wäre ziemlich spannend, wenn es eine Möglichkeit gäbe, die strengen Beweise und Sätze klassischer linearer Modelle auf Deep-Regression-Modelle zu übertragen.
Shalizis „Data Analysis from an Elementary Point of View“ ist ebenfalls ein gutes Einführungslehrbuch: https://www.stat.cmu.edu/~cshalizi/ADAfaEPoV/
Der Schwerpunkt liegt auf linearen Modellen, additiven Modellen und Simulationen, und das ist genau die richtige Richtung. 90 % des Buchs sind ohne Computer nutzlos, aber das ist nun einmal die moderne Realität
Es scheint in diesem Artikel nicht vorzukommen, aber auch bei der linearen Regression tritt das aus Deep Learning bekannte Double-Descent-Phänomen auf
Um das zu sehen, muss man eine Form von Regularisierung einführen. Es wäre gut, wenn diese Diskussion ergänzt würde
- Ich frage mich, ob hier auf ein bestimmtes Paper verwiesen wird. Tritt der zweite Abstieg auf, nachdem das Modell wie bei neuronalen Netzen überparametrisiert wurde? Mich interessiert auch, welche Art von Regularisierung gemeint ist
Für jemanden, der diesen Monat Regression mit XGBoost unterrichtet, ist das eine gute Lektüre. Anders als viele akademische Texte ist er sehr gut geschrieben und leicht zugänglich
Besonders Kapitel 6, die visuelle Diagnostik, gefällt mir. Sehr gut gemacht
Das sieht interessant aus; ich frage mich, ob jemand weiß, wie man dieses PDF in eine mobil optimierte Form umwandelt

Die Wahrheit über lineare Regression im Jahr 2015

Charakter und Ansatz des Manuskripts

Umfang und Updates

Grundlegende Modellierung und einfache Regression

Multiple Regression und erweiterte Themen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare