Prognosen brauchen Fehlerspannen

(andrewpwheeler.com)

2 Punkte von GN⁺ 2023-12-05 | 1 Kommentare | Auf WhatsApp teilen

Wenn stark schwankende Kennzahlen wie nationale Kriminalitätsraten nur als Punktschätzung angegeben werden, lassen sich kleine Trendunterschiede leicht überinterpretieren; eine Beurteilung ist erst mit Prognoseintervallen möglich
Mit dem ARIMA(1,1,2)-Modell aus Python statsmodels wurde die Gewaltkriminalitätsrate für 1960–2015 trainiert und für 2016–2025 prognostiziert; Code und Daten sind auf GitHub veröffentlicht
Der Standardfehler der Ein-Jahres-Vorhersagen für 2016–2020 liegt unter 20, aber bei fortlaufenden Prognosen über mehrere Jahre summieren sich die Fehler, sodass das 95%-Prognoseintervall für 2025 auf 260.36–575.07 anwächst
Die tatsächlich beobachteten Werte für 2021 und 2022 wichen von Richard Rosenfelds Prognose eines steigenden Trends ab, bleiben aber innerhalb des Prognoseintervalls des ARIMA-Modells weiterhin mit dem Modell vereinbar
Langfristige Prognosen nationaler Kriminalitätsraten lassen sich kaum direkt für lokale politische Maßnahmen nutzen; für die tatsächliche Verteilung von Personal und Ressourcen sind konkretere Prognosen, etwa zum Anstieg von Serviceeinsätzen durch Stadtwachstum, hilfreicher

Mit Punktschätzungen allein lässt sich der Trend der Kriminalitätsrate schwer beurteilen

Richard Rosenfeld behandelte in Criminologist Prognosen nationaler Kriminalitätsraten und legte in einem Ende 2023 erschienenen Beitrag Vorhersagen für 2021–2025 vor
Es gibt zwar Beschwerden darüber, dass die FBI-Kriminalstatistik mit einem Jahr Verzögerung erscheint, doch diese Prognose hatte zum Veröffentlichungszeitpunkt bereits den Charakter einer nachträglichen Vorhersage, weil sie auch schon vergangene Jahre einschloss
Punktschätzungen liegen fast immer daneben, daher sollten zusammen mit dem Prognosewert auch Prognoseintervalle angegeben werden
An der Fehlerspanne zeigt sich, wie leicht Interpretationen auf Basis kleiner Trendunterschiede ins Wanken geraten

Reproduzierter Prognoseversuch mit ARIMA

Für die Analyse wurden pandas, statsmodels.tsa.arima.model.ARIMA und matplotlib aus Python verwendet
Die Daten wurden aus UCR_1960_2019.csv und zusätzlichen Werten für 2020–2022 zusammengesetzt
- Die Gewaltkriminalitätsrate VRate wird als Violent / Population * 100000 berechnet
- Die Eigentumskriminalitätsrate PRate wird auf dieselbe Weise berechnet
Code und Daten liegen auf GitHub
Für die Vergleichbarkeit mit Rosenfelds Paper wurde der Zeitraum 1960–2015 als Trainingsbereich verwendet und ein ARIMA(1,1,2)-Modell angepasst
- Rosenfeld schrieb, er habe für die Gewaltkriminalitätsrate ein ARIMA(1,0,2) angepasst, erwähnte aber auch differenzierte Daten, was einem ARIMA(1,1,2) entspricht
- Rosenfelds Modell enthält exogene Faktoren wie Inflation, die hier jedoch nicht einbezogen wurden
- Es wurde keine separate Grid Search durchgeführt, um das optimale Modell zu finden

Modelldiagnose und wie der Fehler anwächst

Der AR(1)-Koeffizient des angepassten Modells ist negativ, was auf mögliche Überdifferenzierung hindeutet
Nach violent.test_serial_correlation('ljungbox') gibt es keine signifikante Autokorrelation in den Residuen
Mit einem automatischen ARIMA-Verfahren ließe sich möglicherweise ein besseres Modell wählen, aber in diesem Fall würden die meisten ARIMA-Modelle wahrscheinlich sehr ähnliche Prognosen und Fehlerintervalle erzeugen
Für 2016–2020 lässt sich der Vergleich als Ein-Jahres-Vorhersage durchführen, indem jeweils neue Daten angehängt werden
- Der Standardfehler in diesem Zeitraum beträgt 19.813228 und liegt damit unter 20
- Damit bleibt er innerhalb des von Rosenfeld als nützlich geschätzten absoluten Fehlerbereichs von 10 %
Bei Prognosen mehrere Jahre im Voraus summieren sich die Fehler
- Um 2022 vorherzusagen, wird zunächst eine Prognose für 2021 benötigt
- Für 2023 müssen 2021, 2022 und 2023 verkettet prognostiziert werden
- Der Standardfehler wächst grob wie sqrt(steps*se^2), weil sich die Varianzen addieren

Prognoseintervalle und Beobachtungswerte für 2016–2025

Der prognostizierte Mittelwert des ARIMA-Modells für 2016–2025 liegt meist zwischen 379 und 420, doch mit der Zeit werden die Prognoseintervalle breiter
- 2021 Mittelwert 412.99, 95%-Intervall 374.16–451.82
- 2022 Mittelwert 420.17, 95%-Intervall 342.16–498.18
- 2023 Mittelwert 416.91, 95%-Intervall 303.53–530.28
- 2025 Mittelwert 417.72, 95%-Intervall 260.36–575.07
Rosenfelds Punktschätzungen liegen in einigen Jahren näher an den tatsächlichen Werten als der ARIMA-Mittelwert
- Beim beobachteten Wert 2020 von 398.5 prognostizierte Rosenfeld 394.9, der ARIMA-Mittelwert lag bei 379.21
- Beim beobachteten Wert 2021 von 387.0 prognostizierte Rosenfeld 404.1, der ARIMA-Mittelwert lag bei 412.99
- Beim beobachteten Wert 2022 von 380.7 prognostizierte Rosenfeld 409.3, der ARIMA-Mittelwert lag bei 420.17
Die Point-Estimate-MAPE des ARIMA-Modells ist im Held-out-Sample teils schlechter als bei Rosenfeld, aber die beobachteten Werte liegen innerhalb des Prognoseintervalls von ARIMA
Die beobachteten Werte für 2021 und 2022 zeigen, dass Rosenfelds Prognose eines steigenden Trends bereits danebengelegen hat
ARIMA-Prognosen haben von Natur aus eine Tendenz zur Mittelwertsrückkehr und konvergieren oft schon nach wenigen Schritten zum Mittelwertterm

Niedrigere Prognosen für 2023–2025 nach Einbezug aktueller Daten

Nach dem Hinzufügen der Daten für 2021–2022 wurden die Prognosen für 2023–2025 erneut berechnet
Die aktualisierten Prognosen fallen niedriger aus als die bisherigen Langfristprognosen
- 2023 Mittelwert 371.98, 95%-Intervall 333.14–410.81
- 2024 Mittelwert 380.09, 95%-Intervall 302.08–458.11
- 2025 Mittelwert 376.40, 95%-Intervall 263.03–489.78
In einer Grafik lässt sich die Größe der Fehlerspannen leichter erfassen
Werden exogene Faktoren einbezogen, müssen bei mehrjährigen Prognosen auch diese Faktoren selbst prognostiziert und ihre Fehler ebenfalls berücksichtigt werden

Politische Grenzen makroskopischer Kriminalitätsprognosen

Prognosen nationaler Gewaltkriminalitätsraten lassen sich nicht ohne Weiteres direkt für politische Maßnahmen verwenden
Eine Stadt wie Pittsburgh hat keinen direkten Grund, eine nationale Kriminalitätsprognose für politische Entscheidungen zu verwenden
Selbst wenn sich die Prognosegenauigkeit auf 5 % oder 1 % verbessern ließe, könnten Verantwortliche auf Bundesebene kaum praktisch mit Aussagen wie „In zwei Jahren steigt die Gewaltkriminalitätsrate um 10, also sollten wir 1342 zusätzliche Polizeikräfte finanzieren“ arbeiten
Makroskopische Kriminalitätsprognosen stehen in der Kritik, dass bei Fehlprognosen kein skin in the game vorhanden ist
In realen Anwendungen der Kriminalitätsprognose ist eine Schätzung praktischer, nach der in einer Stadt mit jeder zusätzlichen Wohneinheit oder Wohnung pro Jahr etwa ein zusätzlicher Serviceeinsatz anfällt
- Für wachsende Städte ist dieser Ansatz besser geeignet, um langfristige Personalplanung vorzunehmen

Mitgenannte Referenzen

Ashby, M. (2023). Forecasting crime trends to support police strategic decision making: Vergleicht typische Fehler bei Prognosen auf Stadtebene; mehrjährige Prognosen erzeugen tendenziell deutlich größere Fehler als Rosenfelds 10%-Nützlichkeitsschwelle
McDowall, D. (2023). Empirical Properties of Crime Rate Trends: Behandelt den Zusammenhang zwischen makroskopischen Kriminalitätsverläufen und kriminologischer Theorie vorsichtiger
Rosenfeld, R. (2018). Studying crime trends: Normal science and exogenous shocks: Frühere Arbeit im Zusammenhang mit Rosenfelds Forschung zu makroskopischen Kriminalitätstrends
Yim, H. N., Riddell, J. R., & Wheeler, A. P. (2020). Is the recent increase in national homicide abnormal?: Untersucht den Einsatz von Fan Charts beim Monitoring nationaler Tötungsdeliktraten

1 Kommentare

GN⁺ 2023-12-05

Meinungen auf Hacker News

Hier gibt es zwei interessante Punkte. Einer wird vom Autor behandelt, der andere nicht. Erstens sollten Prognosen in der Regel zu Entscheidungen führen, wie am Ende des Artikels; wenn beides getrennt wird, kann der Wert unklar werden.
Rosenfield scheint statistischen Schlussfolgerungen aus Vergangenheitsdaten durch Prognosen zusätzliches Gewicht geben zu wollen, und das klingt fragwürdig. Zweitens ist auch unklar, was Fehlerbalken bedeuten sollen. Das eine ist ein Konfidenzintervall[1], das andere die Standardabweichung. Im Grunde sagt man also die quadrierte Differenz zwischen der eigenen Punktschätzung und dem tatsächlichen Ergebnis voraus.
[1] Ich räume ein, dass der Begriff nicht ganz exakt ist
- Kürzlich hat jemand auf Hacker News Statistik als „den Versuch, zu messen, wie überrascht man sein sollte, wenn man falschliegt“ beschrieben. Breite Fehlerbalken vermitteln ein Gefühl dafür, dass man damit rechnen sollte, falschzuliegen; schmale Fehlerbalken zeigen, dass es ziemlich unangenehm sein kann, wenn sich herausstellt, dass man falschlag.
  Das ist keine Erklärung, die die gesamte Statistik abdeckt, aber eine nützliche Perspektive, wenn man über Prognosen nachdenkt.
- Die Position, die Bill Phillips [1] vertreten hat und der ich inzwischen ebenfalls folge, lautet: Man sollte bereit sein, beide Seiten der Wette zu akzeptieren, die ein Konfidenzintervall impliziert.
  Bei einem 95-%-Konfidenzintervall sollte man zum Beispiel sowohl eine Quote von 19:1 darauf akzeptieren, dass der wahre Wert außerhalb des Intervalls liegt, als auch eine Quote von 1:19 darauf, dass der wahre Wert innerhalb des Intervalls liegt. Dieser Ansatz ist allgemein richtig und macht die Bedeutung in Diskussionen über Unsicherheit viel greifbarer, sodass daraus ein unmittelbar anwendbarer Maßstab wird. Richtig umgesetzt führt er dazu, Unsicherheit weder zu konservativ noch zu optimistisch anzugeben.
  Wenn einem bei dem Gedanken, den Leser eine der beiden Wettseiten wählen zu lassen, etwas mulmig wird, ist das die richtige Richtung. Dieses Gefühl lässt nach, wenn man ziemlich sicher ist, dass die Fehlerbalken korrekt gesetzt sind und die Schlussfolgerung dokumentiert und verteidigbar ist.
  Zusätzliche Antwort auf die ursprüngliche Frage: Fehlerbalken von 1 Standardabweichung entsprechen einem 68-%-Konfidenzintervall, 2 Standardabweichungen einem 95-%-Konfidenzintervall. Natürlich unter der Annahme, dass man frequentistisch argumentiert.
  [1] https://www.nobelprize.org/prizes/physics/1997/phillips/fact...
- Bei Prognosen können Fehlerbalken nur die Unsicherheit des Modells bedeuten. Ohne Fehlerbalken zu Modellen kann man nichts darüber sagen, wie gut das Modell ist; und selbst wenn es welche gibt, kann das übergeordnete Modell ungeeignet sein.
- Das ist kein Konfidenzintervall. Ein Konfidenzintervall ist eine Zufallsvariable, die unter der Annahme, dass das Modell korrekt spezifiziert ist, in 95 % der Fälle den wahren Wert enthält.
- Fehlerbalken sind, ob Konfidenzintervall oder Standardabweichung, nur begrenzt nützlich, weil sie nicht sagen, wie die Wahrscheinlichkeit innerhalb dieses Intervalls verteilt ist. Der Heilige Gral der Prognose ist eine probabilistische Vorhersage der gesamten Posteriorverteilung, aus der man Stichproben ziehen kann, um Szenarien oder Realisierungen des zugrunde liegenden Zufallsprozesses zu erzeugen.
Bitte unbedingt so machen. Ich war in einer Organisation, die über mehrere Jahre Tausende von Online-Experimenten durchgeführt hat, und Fehlerbalken beim Vergleich der Wirkung neuer Treatments machten das Verständnis deutlich besser.
Manche hielten das für urteilsverzerrend. Wenn zum Beispiel ein neues Treatment eine „Verbesserung“ von 1 % bewirkt, das Konfidenzintervall aber von -10 % bis 10 % reicht, dann sagt dieses Experiment nicht aus, wie diese Kennzahl beeinflusst wurde. Dadurch fühlt sich die Entscheidung willkürlich an, aber genau das ist der Punkt. In diesem Fall ist die Entscheidung tatsächlich willkürlich, und das Konfidenzintervall weist darauf hin, sodass man andere Trade-offs betrachtet. Wenn das Konfidenzintervall von 0,9 % bis 1,1 % reicht, kann man sich der Wirkung viel sicherer sein.
Das große Problem ist, dass es in manchen Fällen extrem schwierig ist, aussagekräftige Fehlerbalken zu erhalten. Man könnte sich zum Beispiel wünschen, jedem Output eines Machine-Learning-Modells so einen Wert anzuhängen, aber für die meisten Modelltypen weiß ich nicht, wie man das auf vernünftige Weise erreichen könnte. Ähnlich ist es bei Online-Experimenten, die komplexe Versuchsdesigns erfordern, weil man keine Randomisierung erreichen kann, die ausreichend unabhängige Gruppen erzeugt.
Ebenso sollte man für alle wichtigen Metriken regelmäßig Histogramme, also statistische Verteilungen, betrachten. Einmal gab es bei Aufrufen eines großen Webdienstes ein Performance-Problem: Viele Aufrufe waren in unter 50 ms fertig, aber zu viele liefen in ein 500-ms-Timeout. Gleichzeitig sahen wir im Latenz-Histogramm zwei deutlich getrennte Gipfel. Bei weiterer Untersuchung stellte sich heraus, dass diese beiden Gipfel ausgeloggte und eingeloggte Nutzer darstellten. Dadurch konnten wir große Teile des Codes ignorieren und das Performance-Problem in kürzlich ausgeliefertem Personalisierungscode finden, den wir sonst nicht verdächtigt hätten.
- Dass „Entscheidungen willkürlicher wirken“, sehe ich mit zunehmender Erfahrung immer häufiger. Menschen hassen willkürliche Entscheidungen wirklich.
  Sie betreiben erstaunlichen Aufwand, um willkürlichen Entscheidungen eine Rechtfertigung zu geben. Manchmal nimmt das die Form statistischer Modelle an, die Rauschen als Signal ausgeben, und häufig kommt es von Pseudo-Experten. Sie haben keine Methodik und keine Feedback-Schleifen, anhand derer sie wissen könnten, was sie tun, verfügen aber über eine sozial antrainierte Aura von Expertise und können Entscheidungen dadurch Legitimität verleihen. Früher nannte man sie Schamanen, Priester und Astrologen, heute nennt man sie Managementberater und Makroökonomen.
  Ich bevorzuge es, ausdrücklich zu benennen, was passiert, und buchstäblich eine Münze zu werfen. Allerdings ist das keine Strategie, mit der man große Haufen glänzender Steine anhäuft.
- Dass ausgeloggte und eingeloggte Nutzer die beiden Gipfel waren, ist sehr häufig und eine der Kernideen der statistischen Prozesskontrolle.
  Manchmal gibt es einen einzelnen Prozess, der Werte mit im Wesentlichen ähnlicher Verteilung erzeugt. Das ist eine gute Situation, weil man dann viele statistische Werkzeuge für Planung, Schlussfolgerungen usw. verwenden kann.
  In der Praxis sind aber oft zwei oder mehr Prozesse vermischt, während man so tut, als sei es nur einer. Innerhalb jedes Prozesses entstehen Werte mit im Wesentlichen ähnlicher Verteilung, aber Analysen über die aggregierte Gesamtheit werden verwirrend. Wenn man die wichtigsten Bestandteile des scheinbar einzelnen Prozesses kennt, den man betrachtet, ist man der Konkurrenz immer voraus.
  [1]: https://two-wrongs.com/statistical-process-control-a-practit...
Ich stimme dieser Idee vollkommen zu. Ergänzend dazu sollten auch Datumsschätzungen, also Deadlines, Fehlerbalken haben. Am Ende sind auch Daten Vorhersagen
Wenn Stakeholder ein Datum verlangen, sollten sie auch angeben, welche Fehlerbalken sie wollen. Ein rohes Datum ohne Unsicherheitsschätzung ist bedeutungslos. Genauso sollte ein Engineer, wenn er anderen Stakeholdern ein Datum nennt, irgendeine Form von Unsicherheitsschätzung mitliefern. Zwischen der Aussage, dass die Wahrscheinlichkeit, vor Tag X fertig zu werden, 90 % beträgt, und der Aussage, dass sie 99,9 % beträgt, liegt ein riesiger Unterschied
- Das Problem ist, dass Datumsschätzungen für Deadlines keiner Normalverteilung folgen, sodass die üblichen Statistikwerkzeuge, die alle verwenden, nicht funktionieren
  Es ist fast eine einseitig verzerrte Potenzgesetzverteilung. Deadlines werden kaum je deutlich früher erreicht, und wenn doch, dann meist nicht mit großem Abstand. Umgekehrt kann es bei Verzögerungen absurd weit nach hinten gehen
  Für so etwas Konfidenzintervalle zu bauen, ist wirklich schwierig
- Das stimmt absolut. Ich habe früher einmal über diese Methode geschrieben; einer der großen Vorteile ist, dass sie es ermöglicht, aus Fehlern zu lernen
  Eine Datumsschätzung ohne Fehlerbalken kann nicht als falsch nachgewiesen werden. Wenn man aber sagt: „Die Wahrscheinlichkeit, bis vor diesem Datum fertig zu sein, liegt bei 50 %“, dann sollten von den letzten 20 solcher Schätzungen ungefähr 10 rechtzeitig fertig gewesen sein. Wenn nicht, ist die Schätzung nicht kalibriert. Aber immerhin kann man das feststellen. Ohne Fehlerbalken hätte man es nicht wissen können
- Eine Deadline impliziert, dass die obere Grenze des Fehlerbalkens dieses Datum nicht überschreiten darf. Um eine Deadline einzuhalten, muss man daher einen angemessenen Puffer einbauen
Unsicherheitsquantifizierung ist ein vernachlässigter Aspekt der Data Science, insbesondere im Machine Learning. Praktiker haben nicht immer einen Statistik-Hintergrund, und im Machine Learning herrscht oft die Haltung „erst vorhersagen, Fragen später“, wodurch solche Sorgfalt verdrängt wird
Ich fordere immer Fehlerbalken
- Man kann Fehlerbalken verlangen, aber sie sind nicht immer möglich oder sinnvoll. Man kann zwar bei jeder Methode grob eine i.i.d.-Fehlerschätzung mit Normalverteilung „hineinstecken“, aber das hat nicht zwangsläufig Bedeutung
  Fehlerbalken — allgemeiner: Fehlerverteilungen — zu erzeugen, die bei einem allgemeinen nichtlinearen Modell tatsächlich einen vernünftigen Begriff von Unsicherheit beschreiben, kann selbst im Idealfall theoretisch wie rechnerisch ziemlich aufwendig sein. Es gibt gute praktische Methoden mit theoretischer Fundierung, etwa Monte Carlo Dropout, aber die Fehlerbalken, die dabei entstehen, sind nicht immer die Fehler, die man haben möchte. MC DO schätzt die Unsicherheit aufgrund der Modellgewichte, aber beispielsweise nicht die Unsicherheit aufgrund schlechter Trainingsdaten
  Ich unterstütze Verfahren stark, die Unsicherheit natürlich einbeziehen, aber es gibt viele Modelltypen, die empirisch sehr nützliche Ergebnisse liefern, bei denen aber nicht klar ist, wie man nützliche Unsicherheitsschätzungen effizient erzeugt oder interpretiert
  Ein weiteres, häufig vernachlässigtes Thema ist der Begriff kalibrierter Modelloutputs — das ist wiederum ein eigenes Rabbit Hole
- Ist das dann wirklich Wissenschaft? Das ist ein Konzept auf Einführungsniveau in die Statistik. Die Gründe, die Notwendigkeit und die Risiken, wenn sie fehlen, sind sehr klar
  Trotzdem werden ohne diese Voraussetzungen Millionen in Modelle gesteckt, sie werden Menschen als Lösungen verkauft, und man wischt es mit „wenn Leute dafür bezahlen, muss es wertvoll sein“ weg. Menschen bezahlen auch Betrüger
- Fehlerbalken sind wichtig. Aber die meisten interpretieren ihre Bedeutung falsch. Siehe https://errorbars.streamlit.app/
- Fehlerbalken als Statistik können auch Probleme der zugrunde liegenden Daten und des Modells sichtbar machen. Wenn sie zum Beispiel unrealistisch eng oder symmetrisch sind, sollte man misstrauisch werden
Das erinnert mich an eine ähnliche Aussage von Walter Lewin in seiner 8.01-Vorlesung über Messungen: „Eine Messung ohne bekannte Unsicherheit ist bedeutungslos“
https://youtu.be/6htJHmPq0Os
Man könnte sagen, dass eine Vorhersage eine Messung über die Zukunft ist
- In einem ähnlichen Zusammenhang gibt es auch ein Zitat von Lawrence M. Krauss: „Die Fähigkeit, Unsicherheit zu quantifizieren und in Modelle einzubeziehen, macht Wissenschaft quantitativ statt qualitativ“
  Quelle: https://www.edge.org/response-detail/10459
Ich dachte, es ginge hier um Wetter
- Ich auch, und ich hatte einen Thread über Fehlerbalken von Wettermodellen erwartet. So etwas gibt es tatsächlich
  Das ECMWF betreibt ein Ensemble-Modell; vermutlich werden die Anfangsbedingungen leicht variiert oder Modellparameter innerhalb eines Bereichs verändert, sodass 51 Modelle parallel laufen. Aus diesen 51 Modellen lassen sich ziemlich gute Konfidenzintervalle ableiten
  Allerdings ist das ein Modell mit niedrigerer Auflösung, das seltener ausgeführt wird. Das „HRES“-Modell hat die doppelte räumliche Auflösung, daher vermute ich, dass es nicht als Ensemble läuft. Der Grund ist natürlich, dass das sehr teuer wäre
  [1]: https://en.wikipedia.org/wiki/Integrated_Forecast_System#Var...
- Ich nutze seit einiger Zeit meteoblue, und es zeigt an, wie sicher die Vorhersage ist. Im Moment kann man sehen, dass die Vorhersagbarkeit für morgen als mittel und für übermorgen als hoch bewertet wird
  https://content.meteoblue.com/en/research-education/specific...
- Das dachte ich auch, aber ich frage mich, ob gewöhnliche atmosphärische Phänomene im menschlichen Kontext heutzutage noch so weit danebenliegen, dass Fehlerbalken praktischen Wert hätten — oder eher Verwirrung stiften würden
Das interessante Beispiel in diesem Artikel ist Nowcasting: die Technik, die Gegenwart oder Vergangenheit vorherzusagen, während man darauf wartet, dass Daten eintreffen
Ohne Fehlerbereich ist das schlampige Wissenschaft und Statistik
- Es ist nicht immer leicht zu sagen, worin der Nutzen besteht. Selbst wenn man die modellinterne Unsicherheit eines probabilistischen Modells angibt, sagt das unter Umständen nichts über den Schätzfehler im Vergleich zum realen Prozess aus
  Damit eine Vorhersage tatsächliche Unsicherheit zeigt, muss man sich in der ziemlich luxuriösen Position befinden, den datenerzeugenden Prozess zu kennen. Wenn das möglich ist, kann man sie mit vielen historischen Daten grob kalibrieren, aber auch das hat Grenzen
- Dass so etwas existiert, ergibt Sinn. Allerdings macht es meinen Witz weniger lustig: „Ich bin praktisch ein Seher. Ich kann Dinge direkt nachdem sie passiert sind vorhersagen“
Jede Schätzung, Vorhersage, Interpolation und Extrapolation sollte ein Konfidenzintervall, Vorhersageintervall oder Toleranzintervall haben, das die Annahmen widerspiegelt, die das Team in das Problem steckt. Das hängt vom Anwendungsbereich ab
An diesen Aufsatz[1] musste ich denken
„Die Illusion der Vorhersagbarkeit wissenschaftlicher Ergebnisse: Auch Experten verwechseln Inferenzunsicherheit mit Ergebnisvariabilität“
Traditionell haben Wissenschaftler stärker darauf geachtet, die Inferenzunsicherheit – also die Präzision statistischer Schätzungen – zu kommunizieren als die Ergebnisvariabilität, also die Vorhersagbarkeit einzelner Ergebnisse. Dieser Aufsatz zeigt, dass dies zu erheblichen Missverständnissen über die Implikationen wissenschaftlicher Ergebnisse führen kann. Konkret sahen die Teilnehmenden in drei vorab registrierten randomisierten Experimenten dieselbe wissenschaftliche Entdeckung in Visualisierungen, die entweder nur Inferenzunsicherheit, nur Ergebnisvariabilität oder beides darstellten, und beantworteten Fragen zur Größe und Bedeutung der Entdeckung. Die Ergebnisse, die auf Antworten von medizinischen Fachkräften, professionellen Data Scientists und Tenure-Track-Professoren basierten, zeigen, dass die gängige Praxis, nur Inferenzunsicherheit zu visualisieren, selbst hochqualifizierte Fachleute dazu bringen kann, Behandlungseffekte stark zu überschätzen. Wird dagegen Inferenzunsicherheit zusammen mit Ergebnisvariabilität dargestellt, führt das im Durchschnitt zu einer genaueren Wahrnehmung, während andere subjektive Eindrücke der Ergebnisse unverändert bleiben
[1] https://www.microsoft.com/en-us/research/publication/an-illu...
- Eine sehr interessante Referenz. Es gibt ein ganzes Feld namens Unsicherheitsmodellierung
Vorhersagen können auch ohne Fehlerbalken nützlich sein. Manchmal reicht eine einzelne Punktvorhersage, um eine Handlung festzulegen
Manchmal ist es für gute Entscheidungen aber hilfreich oder notwendig, die gesamte Vorhersageverteilung zu kennen. Die Aussage „Punktvorhersagen sind immer falsch“ stimmt bei kontinuierlichen Daten, aber wenn man vorhersagen kann, dass sich eine Aktie nicht verdoppelt, sondern um den Faktor 2,01 steigt, ist das trotzdem nützlich

Prognosen brauchen Fehlerspannen

Mit Punktschätzungen allein lässt sich der Trend der Kriminalitätsrate schwer beurteilen

Reproduzierter Prognoseversuch mit ARIMA

Modelldiagnose und wie der Fehler anwächst

Prognoseintervalle und Beobachtungswerte für 2016–2025

Niedrigere Prognosen für 2023–2025 nach Einbezug aktueller Daten

Politische Grenzen makroskopischer Kriminalitätsprognosen

Mitgenannte Referenzen

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News