1 Punkte von GN⁺ 2024-08-01 | 1 Kommentare | Auf WhatsApp teilen

Die Wahrheit über lineare Regression

  • Einführung

    • Dieses Dokument basiert auf Vorlesungsnotizen, die im Herbst 2015 für 36-401, Modern Regression, erstellt wurden
    • Es kann für Menschen hilfreich sein, die lineare Regression lernen oder lehren
    • Es reduziert die Abhängigkeit der klassischen Theorie von gaußschem Rauschen und einem exakt spezifizierten linearen Modell und betont stattdessen rechenintensivere, aber robustere Techniken
  • Vollständiger PDF-Text

    • Datendateien
    • R-Code für jedes Kapitel
    • Aktuelle Gliederung
  • Optimale Vorhersage

    • Einführung in statistische Modellierung
    • Hinweise zum einfachen linearen Regressionsmodell und zur Schätzung
  • Methode der kleinsten Quadrate für einfache lineare Regression

    • Maximum-Likelihood-Methode für einfache lineare Regression
    • Diagnose und Korrektur einfacher linearer Regression
    • Inferenz für Parameter
    • Prognoseinferenz für das einfache lineare Modell
    • Interpretation von Parametern nach Transformation
    • F-Test, R^2 und weitere Hinweise
    • Einfache lineare Regression in Matrixform
  • Multiple lineare Regression

    • Diagnose und Inferenz für multiple lineare Regression
    • Polynomiale und kategoriale Regression
    • Multikollinearität
    • Tests und Konfidenzintervalle
    • Interaktionen
    • Ausreißer und einflussreiche Punkte
    • Modellauswahl
    • Rückblick
    • Gewichtete und generalisierte kleinste Quadrate
    • Variablenauswahl
    • Bäume
    • Bootstrap I
    • Bootstrap II

Zusammenfassung von GN⁺

  • Dieses Dokument bietet einen modernen Ansatz zur linearen Regression und betont robustere rechnerische Methoden, um die Grenzen klassischer Theorie zu überwinden
  • Es behandelt statistische Modellierung und Regressionsanalyse umfassend, von den Grundlagen bis zu fortgeschrittenen Themen
  • Insbesondere enthält es in der Praxis wichtige Themen wie Multikollinearität, Variablenauswahl und Bootstrap
  • Dieses Dokument kann für Studierende oder Praktiker nützlich sein, die Statistik und Data Science lernen
  • Ein anderes Projekt mit ähnlicher Funktionalität ist "Advanced Data Analysis from an Elementary Point of View"

1 Kommentare

 
GN⁺ 2024-08-01
Hacker-News-Kommentare
  • Die meisten Menschen verstehen lineare Regression nicht besonders gut

    • Alle gängigen statistischen Tests sind lineare Modelle
    • Lineare Modelle sind linear in den Parametern, nicht in der Antwortvariable
    • Wenn man eine geeignete Spline-Basis wählt, lassen sich viele nichtlineare Beziehungen zwischen Prädiktoren und Antwortvariable mit linearen Modellen modellieren
    • Nach dem Taylor-Theorem können lineare Beziehungen gute Näherungen für nichtlineare Beziehungen sein
  • Ich habe vor zehn Jahren an der CMU einen Statistik-Kurs belegt und fand es gut, dabei R zu lernen

    • Eine große Schwäche der linearen Regression ist, dass sie bei kleinen Trainingsdatensätzen funktioniert, sich aber nur schwer auf reale Daten anwenden lässt
  • Ridge Regression ist nützlich, um Probleme mit Multikollinearität zu lösen

    • Heute lernt man sie eher als Regularisierungstechnik zur Vermeidung von Overfitting, ursprünglich wurde sie jedoch verwendet, um die Gewichte zwischen stark korrelierten Prädiktoren ausgewogen zu verteilen
  • Ich würde gern lernen, wie Quant-Researcher bei Citadel lineare Regression einsetzen

    • Ich frage mich, welche theoretischen Resultate sie für wichtig halten
  • Im Bachelorstudium habe ich mehrmals lineare Regression gelernt

    • Ihre Optimalität lässt sich mit Statistik und Wahrscheinlichkeitstheorie beweisen
  • Im Promotionsstudium beschäftige ich mich bei Regressionsproblemen hauptsächlich mit Modellen aus dem Deep Learning

    • Es wäre schön, wenn es eine Möglichkeit gäbe, die strengen Beweise und Theoreme klassischer linearer Modelle auf Regressionsmodelle aus dem Deep Learning anzuwenden
  • Shalizis "Data Analysis from an Elementary Point of View" ist ein guter Einstieg

    • Der Schwerpunkt liegt auf linearen und additiven Modellen sowie auf Simulationen
    • 90 % des Buches sind ohne Computer nutzlos, aber das ist die Realität der Gegenwart
  • Die wichtigste Fähigkeit bei Regression ist, den Intercept zu erkennen

    • Wenn man Interaktionsterme einbezieht, ist es wichtig, die Bedeutung des Intercepts zu verstehen
    • Man muss zum Beispiel verstehen, was der Intercept in einem einfachen linearen Modell mit Alter und einer Variable für die Autismus-Diagnose bedeutet
  • Als jemand, der Regression mit XGBoost unterrichtet, fand ich diesen Artikel sehr hilfreich und leicht zugänglich

    • Besonders Kapitel 6 über visuelle Diagnostik ist sehr gut geschrieben
  • In diesem Artikel wird es nicht erwähnt, aber lineare Regression zeigt ebenfalls das Double-Descent-Phänomen, das man häufig im Deep Learning sieht

    • Dafür muss man Regularisierung einführen
  • Ich frage mich, ob jemand weiß, wie man dieses PDF in eine für Mobilgeräte optimierte Form umwandeln kann