Bayessche Statistik: drei Kulturen

(statmodeling.stat.columbia.edu)

1 Punkte von GN⁺ 2024-07-28 | 1 Kommentare | Auf WhatsApp teilen

Die Debatte über die bayessche Statistik dreht sich nicht nur um ein einziges Problem der Priorverteilung, sondern führt zu Unterschieden darin, wie subjektiver, objektiver und pragmatischer Bayes Modelle und den Prüfprozess betrachten
Subjektiver Bayes ist der traditionelle Ansatz: Zuerst wird eine datenerzeugende Verteilung angenommen, dann werden vorherige Überzeugungen über die Parameter als Priorverteilung kodiert und anschließend posteriori geschlussfolgert
Objektiver Bayes sieht Inferenz so, dass sie nur vom angenommenen Modell und den Daten abhängen sollte, und dass die Priorverteilung im informationstheoretischen Sinn möglichst wenig informativ sein sollte
Pragmatischer Bayes erstellt ein gemeinsames Wahrscheinlichkeitsmodell für beobachtete und unbeobachtete Größen, konditioniert auf die Daten, prüft Modellanpassung und Schlussfolgerungen und wiederholt den Prozess bei Bedarf
Dieser iterative Prozess steht dem iterativen Design im Ingenieurwesen und der allgemeinen Arbeitsweise im Machine Learning nahe und lässt bayessche Analyse eher als praktischen Modeling-Workflow denn als feste Philosophie erscheinen

Unterscheidung von drei Bayes-Kulturen

Subjektiver Bayes nimmt zuerst eine datenerzeugende Verteilung an, also die Likelihood als Funktion der Parameter
Unter dieser Annahme werden bestehende Überzeugungen über die Parameter als Priorverteilung ausgedrückt
Danach wird posteriori Inferenz durchgeführt, ohne in der Regel noch einmal zurückzugehen
Ob es tatsächlich Menschen gab, die dieser Philosophie strikt folgten, oder heute noch Personen, die sich selbst als subjektive Bayesians bezeichnen würden, ist unklar

Motivation des objektiven Bayes und der reference prior

Objektiver Bayes kann als eine Philosophie gesehen werden, die aus dem Wunsch nach Hypothesentests, insbesondere mit Bayes-Faktoren, und einer „Bayesian cringe“ hervorgegangen ist
Der Reference-Prior-Aufsatz von Berger, Bernardo und Sun aus dem Jahr 2009 erklärt, dass Reference Analysis objektive bayessche Inferenz hervorbringt
- Inferenzielle Aussagen sollen nur vom angenommenen Modell und den verfügbaren Daten abhängen
- Die verwendete Priorverteilung soll in einem bestimmten informationstheoretischen Sinn so wenig informativ wie möglich sein
Diese Strömung setzt sich weiterhin über Konferenzen und Bücher mit dem Titel „objective Bayes“ fort
Auch die in BUGS-Beispielen verwendeten breiten Priors gamma(epsilon, epsilon) und normal(0, 10_000) stehen zum Teil in dieser Tradition

Pragmatischer Bayes und die drei Schritte von BDA

Andrew Gelmans Ansatz lässt sich als pragmatischer Bayes bezeichnen
Die erste Ausgabe von Gelman, Carlin, Stern und Rubins Bayesian Data Analysis idealisiert den Prozess bayesscher Datenanalyse in drei Schritten
- Es wird ein vollständiges Wahrscheinlichkeitsmodell für alle beobachteten und unbeobachteten Größen festgelegt, also eine gemeinsame Wahrscheinlichkeitsverteilung
- Durch Konditionierung auf die beobachteten Daten wird die Posteriorverteilung der interessierenden unbeobachteten Größen berechnet und interpretiert
- Es werden die Modellanpassung, die Gültigkeit der aus der Posteriorverteilung folgenden Schlussfolgerungen und die Sensitivität gegenüber Modellannahmen bewertet
Wenn es Probleme gibt, wird das Modell verändert oder erweitert und dieselben drei Schritte werden wiederholt
Das Wahrscheinlichkeitsmodell umfasst hier sowohl Priorverteilung als auch Likelihood als gemeinsames Modell
Der Input wird eher als „knowledge“ denn als „belief“ beschrieben
Der Prozess, zu bewerten, wie gut das Modell zu den Daten passt und wie die Vorhersagen ausfallen, und bei Problemen erneut anzusetzen, wurde später als „workflow“ bezeichnet

Vertrautes iteratives Design in Ingenieurwesen und Machine Learning

Diese Vorgehensweise entspricht dem im Ingenieurwesen sogenannten iterativen Design (iterative design) als Standardablauf
Fast das gesamte Machine Learning wird auf diese Weise betrieben
Aus Sicht der Informatik und des Machine Learning ist bemerkenswert, dass Statistiker offenbar nicht immer schon so gedacht haben

Die Strategie von BDA und das Ausweichen vor philosophischen Debatten

Beim Schreiben der ersten Ausgabe von BDA entschied sich Andrew Gelman dafür, Philosophie nicht ausführlich zu behandeln, sondern sich darauf zu konzentrieren, Wissenschaft tatsächlich zu „betreiben“
Gelman und Rubin gaben ihrem iterativen Designprozess keinen eigenen Namen
Da es schwer ist, die philosophischen Überzeugungen anderer exakt zu bestimmen, und noch schwerer, sie durch Debatten zu ändern, erscheint diese Entscheidung klug
Eher nach dem Prinzip „show, don’t tell“ zeigt dieser Ansatz die Methodik durch tatsächliches Modellieren und wissenschaftliche Praxis statt durch philosophische Kontroversen

Priorverteilung und Likelihood müssen zusammen betrachtet werden

Ein Teil der Diskussion betrifft die Priorverteilung, aber die Wahl der Priorverteilung ist nicht subjektiver oder weniger subjektiv als die Wahl der Likelihood
Andrew Gelmans Text „Straining on the gnat of the prior distribution while swallowing the camel that is the likelihood“ fasst diese Sicht zusammen
Philosophisch wird bevorzugt, Priorverteilung und Likelihood eher mit dem erkenntnistheoretischen Begriff knowledge als mit „belief“ zu behandeln
Dieses Framing wurde zuerst von Laplace geliefert, von John Stuart Mill weiter vertieft und von Gelman u. a. in BDA übernommen

Genealogie des Titels und Breimans zwei Kulturen

1959 schrieb C.P. Snow „The two cultures“ über den Gegensatz von Kunst und Wissenschaft
2001 veröffentlichte L. Breiman den einflussreichen Text „Statistical modeling: the two cultures“
Breimans Gegenüberstellung betrifft den Unterschied zwischen Ansätzen, die den Entstehungsprozess explizit modellieren, und Ansätzen mit sehr flexiblen Modellen, die im Machine-Learning-Vokabular Modellen mit hoher Kapazität entsprechen
Breiman unterstützte in seiner eigenen Forschung Decision Forests, und in Kaggle-Wettbewerben, bei denen nicht genug Daten vorhanden sind, um moderne neuronale Netze passend zu trainieren, gewinnt dieser Ansatz weiterhin
Der Text endet mit der Frage, ob Decision Forests und Neural Networks zu dem gehören, was Andrew als „unfolding flower“ bezeichnete

1 Kommentare

GN⁺ 2024-07-28

Hacker-News-Kommentare

Der Autor scheint Bayesians entlang zweier Achsen einzuteilen: (1) wie informativ man die Prior-Verteilung auf Basis von Wissen oder Überzeugungen über die Welt wählt, und (2) ob man anhand von Fit sowie Plausibilität und Nützlichkeit der Ergebnisse die funktionale Form des Modells iterativ korrigiert.
Drei Kombinationen daraus nennt er informativ+iterativ=praktisch, informativ+nicht-iterativ=subjektiv, nicht-informativ+nicht-iterativ=objektiv; am schwersten fällt es mir aber, zu akzeptieren, dass das Feld nicht-informativ+iterativ leer bleibt.
Meiner Ansicht nach fallen die meisten Menschen in der Industrie, die sich selbst Bayesianer nennen, genau in dieses Feld. Die funktionale Form des Modells, also der angenommene datengenerierende Prozess, sollte selbstverständlich iterativ verbessert werden und muss das auch; häufig sind die Daten groß genug, um die Prior-Verteilung zu überstimmen, sodass Priors normalerweise nicht-informativ oder nur schwach informativ sind.
Deshalb fühlt sich die gesamte Spalte nicht-iterativ wie ein Strohmann an, aber der Autor schreibt ausdrücklich, dass er selbst das auch geglaubt habe und „schockiert war, als er herausfand, dass Statistiker nicht so denken“.
- Nicht-Iterativität gibt es tatsächlich, und sie hat nicht zwingend nur schlechte Gründe. Ein Modell iterativ zu verbessern zielt darauf ab, es nach irgendeinem Kriterium besser zu machen; in der wissenschaftlichen Forschung wirken jedoch starke verzerrte Anreize rund um Signifikanzschwellen und positive Ergebnisse.
  Situationen, in denen sich die Analyse je nach Daten ändert, wie im „Garten der sich verzweigenden Pfade“, scheinen heute eine direkte Ursache der statistischen und epistemologischen Krise der Wissenschaft zu sein. Iteration an sich ist nicht schlecht, aber die Zielfunktion, die optimiert wird, ist häufig eine andere als die, die wissenschaftlich wünschenswert wäre.
  Für tatsächlich Forschende kann das iterative Anpassen eines Modells wie eine Art unredliches Verhalten wirken, und es scheint eng mit der fehlerhaften Erkenntnistheorie zusammenzuhängen, auf die sich viele Felder eingeschwungen haben: p<0,05 bedeutet wahr, andernfalls falsch.
  Anders gesagt: Der Kern des Unbehagens könnte in der Zahl der Freiheitsgrade liegen, die die analysierende Person kontrolliert. Im bayesianischen Kontext erhält sie sehr große Kontrolle darüber, wie die Ergebnisse ausfallen, wenn sie Priors anhand von Überzeugungen oder früheren Daten wählt.
  Deshalb haben sich viele Disziplinen eher zu einer Sammlung von „Standard“-Tests hingeneigt, statt gute statistische Modelle zu bauen. Diese Tests nehmen den Analysierenden die meisten Stellschrauben aus der Hand und verhalten sich im Allgemeinen konservativer.
- Ich kenne mich mit der bayesianischen Seite nicht besonders gut aus, frage mich aber, ob bayesianische nichtparametrische Methoden unter den Ansatz „nicht-informativ + iterativ“ fallen.
  Vielleicht schaue ich auch völlig in die falsche Richtung, aber ich weiß nicht, wo mein Denken oder Verständnis abweicht.
- Interessanterweise läuft moderne Machine Learning nach meiner Erfahrung fast vollständig als praktischer Bayesianismus. Man sucht nach dem ELBO, wählt den neuesten Latent-Variable-Trend, der den Problembereich am besten modelliert, nimmt heutzutage meist einen Transformer und beginnt, Experimente laufen zu lassen.
Ich vermisse die Zeiten an der Uni, in denen Professoren endlos über Bayesianismus versus Frequentismus gestritten haben.
Der Text ist sehr knapp und erklärt trotzdem, warum selbst bayesianische Professoren unterschiedliche Ansätze für Forschung und Analyse hatten. Das dritte Lager, die praktischen Bayesianer, kannte ich nicht, aber es passt definitiv zur Forschung eines Professors, der probabilistisches Fitting und viele Iterationen sehr gründlich einsetzte, um Prior-Verteilungen und gemeinsame Wahrscheinlichkeitsdichtefunktionen richtig hinzubekommen.
Andrew Gelmans Vortrag „Andrew Gelman - Bayes, statistics, and reproducibility (Rutgers, Foundations of Probability)“ kann ich Datenwissenschaftlern ebenfalls sehr empfehlen.
- Link zum Vortrag: https://youtu.be/xgUBdi2wcDI
- Etwas provokant formuliert zur Debatte Frequentismus versus Bayesianismus: Diese drei Kulturen sehen für mich so aus:
  Subjektive Bayesianer sind der Strohmann, den die frequentistische akademische Welt gern angreift; objektive Bayesianer sind das naive Selbstbild vieler bayesianischer Wissenschaftler; und praktische Bayesianer sind die Praktiker, die Statistik tatsächlich auf etwas anwenden — in Gelmans Worten: diejenigen, die Wissenschaft betreiben.
- In letzter Zeit habe ich auch von Fiducial Statistics als drittem Lager gehört. Folge 581 des Super-Data-Science-Podcasts mit dem Herausgeber der Harvard Business Review war ziemlich interessant.
- In dem Land, aus dem ich komme, dominiert im Allgemeinen der frequentistische Ansatz, aber es gibt praktisch keinen Kampf mit den Bayesianern, was mich immer gewundert hat. Es ist einfach ein Bündel mathematischer Theorien und Werkzeuge, und man verwendet, was nützlich ist.
  Ich glaube immer noch, dass Amerikaner die frequentistische Sichtweise tendenziell stärker ablehnen, weil sie einen solideren mathematischen Hintergrund erfordert.
Ich habe die Stimmung immer gehasst, dass man entscheiden müsse, zu welchem „Club“ man gehört und auf welcher „Seite“ man steht. Auch die Vorstellung, die Probleme der heutigen Wissenschaft ließen sich darauf reduzieren, welche Philosophie der Inferenz man übernimmt, gefällt mir nicht.
In vieler Hinsicht bin ich eher informationstheoretisch orientiert; wenn man mich festnageln müsste, wäre ich vielleicht ein objektiver Bayesianer, aber eigentlich bin ich weder Frequentist noch Bayesianer.
Diese Einteilung in „drei Kulturen“ wirkt ein wenig wie ein Taschenspielertrick. Die „praktische“ Kultur schließt subjektive und objektive Bayesianer nicht aus und sagt daher wenig darüber aus, wie Prior-Verteilungen festgelegt oder interpretiert werden sollten.
Gelman würde vielleicht sagen, ein besserer Begriff wäre so etwas wie „Flexibilität“, aber dann bleibt die Frage, wann man objektiv vorgeht, wann subjektiv und warum. Das zu formalisieren scheint besser, als es als Nebelwand stehen zu lassen.
Außerdem, als Advocatus Diaboli gesprochen: Die „praktische“ Kultur zeigt auch, warum Bayesianismus skeptisch betrachtet wird. Der Ablauf „Prior-Verteilung wählen“, „schauen, wie gut es passt“ und dann „iterieren“ kann wie Modell-Feintuning oder p-Hacking wirken.
Ich weiß, dass das nicht die Absicht ist, und ich weiß auch, dass man ohne Feintuning nicht modellieren kann; aber bei dieser Herangehensweise wirkt die Prior-Verteilung wie ein weiterer Freiheitsgrad, mit dem man die Ergebnisse leicht in die gewünschte Richtung schiebt.
Ich habe Arbeiten zu bayesianischer Inferenz geschrieben und auch redigiert; das Problem lag nie in der soliden Theorie. Es liegt darin, wie Menschen sie in der Praxis verwenden und missbrauchen.
Wer eine fundierte Perspektive auf moderne frequentistische Methoden gewinnen möchte, dem empfehle ich Yudi Pawitawns „In All Likelihood“.
In den ersten Kapiteln erklärt er recht elegant die Unterschiede zwischen dem frequentistischen und dem bayesschen Paradigma, insbesondere die Stärke gut konzipierter frequentistischer oder likelihood-basierter Modelle.
Von einigen Ausnahmen abgesehen sollten Bayesianer, wenn sie tatsächlich nichtinformative Prior-Verteilungen verwenden, zum selben Ergebnis kommen, egal ob derselbe Analyst ein bayessches oder ein frequentistisches Modell nutzt. In meinem Arbeitsgebiet heißt es sogar, dass 99 % der Forschenden, die bayessche Methoden verwenden, nichtinformative Prior-Verteilungen nutzen; manchmal frage ich mich daher, ob Bayesianismus nicht einfach eingesetzt wird, weil er gut aussieht und leichter durch das Peer Review kommt.
Bei komplexen Modellen, etwa solchen mit Hunderten oder Tausenden von Parametern, kann es im Kontext eines bestimmten Datensatzes extrem schwierig sein zu wissen, ob eine Prior-Verteilung wirklich nichtinformativ ist. Man muss auf die Modellausführung warten, und wenn man die Prior-Verteilungen systematisch variiert, dauert das selbst mit High-Performance-Computing-Ressourcen enorm lange.
Außerdem ist es in einer bayesschen Umgebung leicht, ein Modell, das im frequentistischen Ansatz mit einer nicht positiv definiten Hesse-Matrix scheitern und damit die Diagnose liefern würde: „Das Modell ist vermutlich Unsinn oder für den Datensatz zu komplex“, durch eine oder mehrere Prior-Verteilungen zufällig doch passend zu machen.
Man mag Modelle dieser Komplexität belächeln, aber in vielen Anwendungskontexten sind sie Realität. Beispiele sind raumzeitliche Modelle, die vor „großen n“-Problemen stehen, oder integrierte Fischereibewertungsmodelle, die Informationen zum Ressourcenstatus und zur Nachhaltigkeit liefern.
Obwohl ich also bayessche Inferenz auf Graduiertenniveau unterrichte, ist mein Hauptkritikpunkt an der bayesschen Statistik, dass sie von Nicht-Statistikern und Anfängern zu leicht missbraucht werden kann. Das gilt umso mehr, da heute sehr flexible Software auch Nicht-Statistikern wie Biologen offensteht.
Insgesamt hat Gelman recht, und ich stimme ihm weitgehend zu, wenn er sagt, dass beide Paradigmen subjektiv sind und dass darunter bis ganz nach unten Schildkröten liegen – also Subjektivität.
- Der Empfehlung von „In All Likelihood“ stimme ich zu, aber man sollte auch erwähnen, dass dieses Buch einen dritten Ansatz beschreibt, der sich weder auf subjektive Wahrscheinlichkeit noch auf objektive Wahrscheinlichkeit stützt.
- Wenn das Problem darin besteht, dass Nicht-Statistiker und Anfänger die bayessche Statistik leicht missbrauchen können: Gilt das nicht genauso für frequentistische Statistik? :-)
Meiner Ansicht nach ist Wahrscheinlichkeit kein sauber definierter und nicht falsifizierbarer Begriff. Trotzdem scheint sie empirisch einige Aspekte der Welt ziemlich gut zu modellieren. Aber könnte sie uns nicht auch in die Irre führen?
Was bedeutet die Aussage p(X)=0.5, also dass die Wahrscheinlichkeit des Ereignisses X 0,5 beträgt, eigentlich? Ist sie eine Proposition? Wenn ja, ist sie falsifizierbar, und wie?
Wenn sie keine Proposition ist, was bedeutet sie dann? Ich wäre dankbar, wenn jemand mit soliderem theoretischem Hintergrund das erklären könnte. Ich hätte noch mehr dazu zu sagen, möchte aber zuerst Antworten von Leuten hören, die den strengen Hintergrund dafür haben.
- Als mathematische Theorie ist Wahrscheinlichkeit sauber definiert. Wahrscheinlichkeit ist eine Anwendung des größeren Themas Maßtheorie, und die Maßtheorie liefert auch das theoretische Fundament der Analysis.
  Jede Wahrscheinlichkeit wird durch drei Dinge definiert: eine Menge, eine Menge von Teilmengen dieser Menge – vereinfacht gesagt eine Art, Dinge zu gruppieren – und eine Funktion, die diese Teilmengen auf Zahlen zwischen 0 und 1 abbildet. Damit das gültig ist, muss die Menge der Teilmengen, die man auch Ereignisse nennt, zusätzliche Regeln erfüllen.
  Das Beispiel p(X)=0.5 bedeutet lediglich, dass eine bestimmte Funktion einer bestimmten Teilmenge, die X genannt wird, den Wert 0,5 zuweist.
  Warum das für die Modellierung der realen Welt geeignet erscheint, erklärt sich aus dem Ursprung der Theorie. Sie ist nicht aus dem Nichts entstanden, sondern wurde entwickelt, weil man zufällig wirkende Ereignisse in der realen Welt formalisieren wollte.
- Persönlich bin ich zu dem Schluss gekommen, dass Wahrscheinlichkeit nur dann ein sauber definierter und prüfbarer Begriff ist, wenn man sie aus einer bestimmten exakten Symmetrie heraus begründen kann.
  Münzwürfe, Glücksspiele und viele Probleme der statistischen Physik fallen darunter. Bei Schlussfolgerungen, Vorhersagen und Schätzungen in der realen Welt hingegen ist Wahrscheinlichkeit subjektiv und weit weniger quantifizierbar, als Statistiker, einschließlich Bayesianer, meinen.
  Ob Wahrscheinlichkeit uns in die Irre führen kann? Meiner Ansicht nach ja. Ich habe zunehmend den Eindruck, dass alle Wissenschaften, die statistische Hypothesentests als wichtigste empirische Methode verwenden, im Grunde einem riesigen Müllhaufen gleichen und dass die Reproduzierbarkeitskrise nur die Spitze des Eisbergs ist. Dazu gehören Ökonomie, Sozialpsychologie, große Teile der Medizin, Data Science usw.
  Aussagen wie p(X)=0.5 sind in den meisten Fällen meiner Ansicht nach nicht falsifizierbare Propositionen. Selbst wenn man, wie bei Münzwürfen, viele Experimente billig durchführen kann, muss man eine Million Durchläufe machen, nur um die berechnete Wahrscheinlichkeit mit etwa 1 % Genauigkeit zu „bestätigen“. Nach den Maßstäben der exakten Wissenschaften ist das miserabel, und es wird noch schlimmer, wenn die Annahmen weniger robust sind, der Stichprobenraum komplexer ist oder die Reproduktion teurer wird.
- Wahrscheinlichkeit ist kein einzelner Begriff, sondern eine Familie verwandter Begriffe. Epistemische Wahrscheinlichkeit im subjektiv-bayesianischen Sinn ist ein anderer Begriff als frequentistische Wahrscheinlichkeit, auch wenn sie natürlich in mancher Hinsicht verwandt sind.
  Wenn man miteinander unvereinbare Definitionen zusammenwirft, ist es nicht überraschend, dass es wie ein „unklar definierter und nicht falsifizierbarer Begriff“ aussieht.
  Aus subjektiv-bayesianischer Sicht ist p(X) ein Maß für den Grad der Überzeugung, den ich oder eine bestimmte Person darin hat, dass eine Proposition wahr ist; für die Einschätzung des Gewichts der dafür- und dagegensprechenden Evidenz; oder für den Grad meines Wissens über wahr oder falsch.
  0,5 bedeutet, dass es keine Überzeugung in die eine oder andere Richtung gibt, dass es keine Evidenz in die eine oder andere Richtung gibt oder dass sich die Evidenz auf beiden Seiten vollständig aufhebt und dass keinerlei Wissen darüber besteht, ob die Proposition wahr ist.
  Das ist in demselben Sinn eine Proposition wie „Der Papst glaubt, dass Gott existiert“. Ob Gott tatsächlich existiert oder nicht: Dass der Papst das glaubt, ist sehr plausibel wahr.
  Daher ist eine Aussage über meine Überzeugung durch Selbstreflexion leicht falsifizierbar; und eine Aussage über die Überzeugung einer anderen Person ist falsifizierbar, wenn man sie fragen kann, sie bereitwillig antwortet und man davon ausgeht, dass sie keinen Grund hat zu lügen.
- Es stimmt, dass eine konkrete Behauptung wie p(X=x)=a im Allgemeinen nicht falsifizierbar ist. Aber ganze Funktionen p kann man miteinander vergleichen und sagen, welche besser zu den Daten passt.
  Nehmen wir zum Beispiel an, Nate Silver und Andrew Gelman veröffentlichen jeweils Wahrscheinlichkeiten für alle Rennen der Novemberwahl. Nachdem die Wahlergebnisse vorliegen, kann man nicht sagen, ob eine einzelne Wahrscheinlichkeit richtig oder falsch war, aber man kann sagen, wer genauer war.
- Wenn bei 1000 Münzwürfen 99 % Kopf und 1 % Zahl herauskommen, du sicher bist, dass bei allen Würfen derselbe Prozess verwendet wurde, und du die Gelegenheit hast, auf Zahl mit einer Quote von 50 % zu wetten: Würdest du wetten?
  Das ist eine praktische Antwort, die P(X)=0.5 verwirft. Und man kann versuchen, diese praktische Entscheidung mit einer Theorie zu verstehen. Außerdem ist exakt 0,5 praktisch unmöglich; sinnvoller wäre es zu prüfen, ob sie in einem Intervall wie (0.49, 0.51) liegt.
  Der zentrale Grenzwertsatz besagt, dass man durch unabhängige Versuche die Wahrscheinlichkeit von X erhalten kann und dass im Grenzwert die durchschnittliche Häufigkeit des Auftretens von X gegen p(X) geht.
  Aber „Grenzwert“ bedeutet unendlich viele Versuche, daher bestimmt keine endliche Anfangsfolge diesen Grenzwert. Man muss ein großes N als Maßstab wählen und den Durchschnitt bilden.
  Ist das aber nur der Wahrscheinlichkeit eigen? Wenn es eine Aussage über die Welt gibt wie „An Position G steht ein Baum“ und ein Verfahren, diese Aussage zu überprüfen, zum Beispiel „zu G gehen und nach einem Baum suchen“, kann man dann sagen, dass dieses Verfahren die Wahrheit oder Falschheit der Aussage zwangsläufig entscheidet? Es gibt immer Hindernisse, etwa „eine Erscheinung, die wie ein Baum aussieht“. Um alle solchen Hindernisse auszuschließen, muss man einen idealisierten Beobachtungsprozess annehmen.
  Die Idealisierung, die bei der Überprüfung von Wahrscheinlichkeit funktioniert, sind unendlich viele unabhängige Beobachtungen, und diese liefern p(X).
  Ich will damit nicht den Frequentismus verteidigen, sondern sagen, dass die Notwendigkeit eines Ideals des Beobachtungsprozesses nicht als überwältigendes Hindernis gelten sollte. Wenn es natürlich prinzipielle Hindernisse gibt, wie die gleichzeitige Beobachtung von Ort und Impuls in der Quantenmechanik, könnte man den Wahrscheinlichkeitsbegriff aufgeben.
Man sollte bedenken, dass Breimans kontroverser Artikel von generativen Methoden versus diskriminativen Methoden handelte. Es ging also darum, die Analyse nicht damit zu beginnen, wie die Datenerzeugung modelliert werden kann, sondern mit der Vorhersage.
Aus dieser Strömung gingen nicht-generative Blackbox-Methoden wie Boosting Trees, Bagging, Random Forests und XGBoost hervor.
Auch heute sind die meisten klassischen Werkzeuge des Machine Learning nicht generativ.
Das Gute an bayesianischer Statistik ist, dass sie subjektiv ist. Man muss nicht unbedingt der subjektivistischen Schule angehören; man kann die Interpretation nach dem eigenen subjektiven Urteil wählen.
Ich halte das für eine Stärke des Bayesianismus. In jede statistische Arbeit fließen subjektive Urteile einzelner Menschen ein. Diesem unveränderlichen Fakt nicht auszuweichen, ist eher objektiver.
- Ob ein Ansatz angemessen ist, hängt stark davon ab, was modelliert wird und welche Folgen von Fehlern sich daraus ergeben.
Bayesianisches Hacking: die Iteration finden, die der eigenen Forschung die größte Signifikanz verschafft
Wo passt Deep Learning hinein?
- Die implizite Annahme, die die vom Autor erwähnten Praktiker teilen, ist, dass sie versuchen, ein Modell zu erstellen, das einem zugrunde liegenden „Datengenerierungsprozess“ entspricht.
  Machine-Learning-Praktiker können ähnliche Modelle wie Bayes’sche Statistiker verwenden, sogar dieselben Modelle, neigen aber dazu, Modelle eher anhand der Vorhersageleistung zu bewerten – oder ausschließlich danach – statt anhand einer Intuition darüber, warum die Daten diese Werte haben.
  Siehe dazu Breimans klassischen Aufsatz „Two Cultures“, auf den der Titel dieses Beitrags verweist: https://projecteuclid.org/journals/statistical-science/volum...
- Die meisten Modelle leiten sich aus Prinzipien des Machine Learning ab, einer Mischung aus klassischer Wahrscheinlichkeitstheorie, frequentistischer und Bayes’scher Statistik sowie vielen Grundlagen der Informatik.
  Dennoch gab es auch Fortschritte bei Bayes’scher Inferenz und Bayes’schem Deep Learning; es lohnt sich daher, sich Framework-Arbeiten wie Pyro anzusehen, das auf PyTorch aufbaut.
- Auf hoher Ebene haben Bayes’sche Statistik und Deep Learning dasselbe Ziel: die Anpassung der Modellparameter.
  Insbesondere die Variationsinferenz ist eine Familie von Techniken, die solche Probleme berechenbar machen. Sie taucht überall auf, von Variational Autoencodern über Zustandsraummodellierung für Zeitreihen bis hin zu Reinforcement Learning.
  Wer mehr lernen möchte, dem sei Murphys Machine-Learning-Lehrbuch empfohlen: https://probml.github.io/pml-book/book2.html
- Tiefe neuronale Netze sind lediglich sehr komplexe Datenmodelle; ob etwas Bayes’sch oder frequentistisch ist, hängt davon ab, wie man die Parameterschätzung und die Vorhersage neuer Daten behandelt.
  Bayes’sche Ansätze legen eine Verteilung über die Parameter, konditionieren sie anschließend auf die Daten, um die Posteriorverteilung zu erhalten, und leiten daraus die posterior-prädiktive Verteilung für neue Daten ab.
  Frequentisten betrachten Parameter dagegen als feste Größen und schätzen sie nur über die Likelihood, zum Beispiel mit Maximum-Likelihood; dabei können auch Tricks wie Regularisierung zum Einsatz kommen, denen sich ebenfalls eine Bayes’sche Interpretation geben lässt.
- https://en.wikipedia.org/wiki/Statistical_learning_theory

Bayessche Statistik: drei Kulturen

Unterscheidung von drei Bayes-Kulturen

Motivation des objektiven Bayes und der reference prior

Pragmatischer Bayes und die drei Schritte von BDA

Vertrautes iteratives Design in Ingenieurwesen und Machine Learning

Die Strategie von BDA und das Ausweichen vor philosophischen Debatten

Priorverteilung und Likelihood müssen zusammen betrachtet werden

Genealogie des Titels und Breimans zwei Kulturen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare