Woher wissen, ob eine statistische Vorhersage richtig ist?

Die Wettervorhersage sagt die Regenwahrscheinlichkeit für einen Tag voraus oder nicht. Wenn ich den gleichen Tag viele Male wiederholen könnte, könnte ich zählen, wie oft es regnet oder nicht, also könnte ich mit der Vorhersage vergleichen, um zu wissen, ob die Vorhersage richtig ist.

Tatsache ist, dass es nicht möglich ist, einen Tag zu wiederholen. Die einzigen Daten, die ich habe, sind die entsprechenden Vorhersagen für viele verschiedene Tage und nur ein Verteilungspunkt für jede Vorhersage.

Wie kann ich also wissen, ob die Wahrscheinlichkeiten für die Wettervorhersage korrekt sind?

Diese Frage kann auf jede Vorhersage ausgedehnt werden, bei der ich die Phänomene nicht viele Male wiederholen kann, um eine vollständige Verteilung zu erhalten und die Vorhersage zu verifizieren.

forecasting predictive-models accuracy

— Rafael
quelle

Wenn Vorhersagen probabilistisch sind (z. B. ist jede Vorhersage eine prozentuale Regenwahrscheinlichkeit), können Sie die Prozentsätze in Bändern mit dem Anteil der Regenzeiten für diese vergleichen, z. B. ein pp-Diagramm. Die tatsächlichen Prognosen müssen auf jeden Fall auf ein Vielfaches von 5% oder 10% gerundet werden, sodass die Bänder häufig bereits vorhanden sind.

— Glen_b -State Monica

Es scheint eine Methode zu sein, die funktioniert. Ich sollte viele Daten haben, um wiederholte Vorhersagen (gleiche Prozentsätze) für verschiedene Tage zu haben, als ich zählen könnte, wie viele Tage Regen oder nicht, und mit dieser Vorhersage vergleichen könnte. Aber es ist nicht klar, wie ich visuell wissen könnte, ob die Prognose mehr richtig oder falsch ist als die Vorhersagen. Ich möchte einen numerischen Wert, der angibt, ob und wie viel richtig oder falsch ist.

— Rafael

Haben Sie sich ROC (Receiver Operating Characterstic), Brier Score angesehen, um die relative Leistung zweier Vorhersagen zu vergleichen?

Noch nicht, aber ich werde.

— Rafael

Antworten:

"Diese Frage kann erweitert werden ..." - das ist absolut richtig. Aber natürlich, wenn Sie den ganzen Weg zurücktreten möchten, ist dies für jedes Phänomen der Fall . Jedes Mal, wenn Sie eine Münze werfen, wird sie ein wenig verbeult und ändert die Wahrscheinlichkeit, dass Köpfe auftauchen. Jedes Mal, wenn Sie auf einen Korb schießen, sind Ihre Arme etwas müder (oder etwas ausgeruhter) und Ihre Chance, dass der Ball hineingeht, ist etwas anders.

Als angewandter Statistiker versucht ein enormer Teil Ihrer Arbeit festzustellen, welche Ereignisse ähnlich genug sind , um als gleich gewertet zu werden. Sie werden niemals eine Gruppe von Menschen haben, die Drogen nehmen, oder eine Gruppe von Studenten, die getestet werden, oder eine Gruppe von Städten, die genau dieselben Richtlinien umsetzen . Ein Großteil Ihrer Arbeit besteht darin, herauszufinden, worauf Sie achten müssen, damit sie, wenn Sie fertig sind, ähnlich genug sind , um Ihnen eine aussagekräftige Antwort zu geben.

Wenn es um Vorhersagen geht, können Sie am besten versuchen, Dinge zu trainieren und dann zu testen, die Ihrer Meinung nach ausreichend ähnlich sind. Bei der Kreuzvalidierung geht es darum zu untersuchen, wie intern Ihre Daten und Ihr Modell konsistent sind. Wenn Sie einige trainieren und den Rest genau vorhersagen können, ist eine solide Interpretation, dass die beiden Datensätze "ähnlich genug" sind. (Wenn Sie den anderen enormen Teil davon ausgehen, dass Ihr Modell korrekt ist.) Für beobachtete Daten können Sie also die Vorhersagegenauigkeit durch Kreuzvalidierung bewerten.

Für die unsichtbare Zukunft lautet die beste Antwort auf Ihre Frage jedoch nur: "Damit die Vorhersagen korrekt sind, müssen Sie davon ausgehen, dass das Wetter von morgen aus derselben Verteilung stammt wie das gesamte Wetter, für das das Vorhersagemodell geeignet war." Und jede Frage, wie nahe sie kommt, hängt von einem bestimmten Modell und einer bestimmten Präferenz ab.

— one_observation
quelle

Ich bin nicht so streng, eine ungefähre Antwort reicht bis zu einem gewissen Grad aus, um die Realität darzustellen. Und ich mache keine Vorhersagen, ich hätte mehr Wissen dafür, möchte nur die Vorhersagen anderer testen.

— Rafael

In der Statistik dreht sich alles um Abschlüsse - wie nah müssen Sie kommen? Die Wahl dieses Abschlusses ist kein einfaches Problem.

— one_observation

Methoden wie die Kreuzvalidierung (z. B. mit dem Brier-Score) können verwendet werden, um die Vorhersagegenauigkeit der Stichprobe zu ermitteln.

— Gung - Reinstate Monica

Nahe an dem Punkt, an dem ich nicht sehe.

— Rafael

Das blind ist der Site-Name und ich habe ihn nicht einmal gesehen.

— Rafael

Dies ist eine großartige und häufig gestellte Frage. Die Eigenschaft, an der Sie interessiert zu sein scheinen, ist Ergodizität . Wenn ein stochastischer Prozess, an dem Sie interessiert sind, ergodisch ist, können (ungefähr) diese "unterschiedlichen Tages" -Beobachtungen, die Sie sehen, kombiniert werden, um zu beurteilen, wie erfolgreich die Wettervorhersagen sind. kann kombiniert werden, um einige Konvergenzergebnisse abzuleiten. Wenn der Prozess jedoch keine Ergodizität aufweist, müsste man - wie Sie sagten - denselben Tag mehrmals beobachten und prüfen, ob diese Regenwahrscheinlichkeit korrekt ist oder nicht. Die Ergodizität ist mit realen Daten schwer zu überprüfen und wird normalerweise als Annahme angesehen.

Eine strenge, aber empirische Behandlung der Ergodizität finden Sie in diesem Kapitel des Zeitreihenbuchs von E. Zivot. Sehen Sie sich dieses Video ab 16:55 an , um ein sehr schönes intuitives Beispiel zu erhalten.

— Mustafa S Eisa
quelle

Ich hatte keine Ahnung von Ergodizität, was interessant zu wissen ist. In meinem Beispiel gehe ich davon aus, dass es möglich ist, Vorhersagen zu überprüfen, die das Ereignis viele Male wiederholen und bei vielen Ereignissen, die nur einmal wiederholt werden können, also Ergodizität voraussetze (glaube ich). Aber ich weiß nicht, wie ich mit Ergodizität überprüfen soll, ob die Vorhersage richtig ist.

— Rafael

Die Zeitreihenökonometrie befasst sich mit einer ähnlichen Frage: Wenn und Zeitreihenvariablen sind, sollten Sie einer linearen Regression mit den beiden Variablen vertrauen? Die Antwort lautet "es kommt darauf an". $y_t$ $x_t$

Es hängt davon ab, ob die beobachtete Beziehung zwischen den beiden Variablen auch in Zukunft wahr sein wird. Wenn und beide nicht stationär sind, kann die beobachtete Beziehung in Zukunft auseinander brechen. Wenn und beide stationär sind, sollte die beobachtete Beziehung in Zukunft gelten. $y_t$ $x_t$ $y_t$ $x_t$

Hier ist ein simuliertes Beispiel. Die Variablen und sind beide nicht stationär. Obwohl das Regressionsmodell besagt, dass die beobachtete Beziehung stark ist (basierend auf p-Wert und ), ist das zeitversetzte schrecklich (das Modell ist weitaus schlechter als die Verwendung des Durchschnitts als Vorhersage). $x_t$ $y_t$ $R^2$ $R^2$

### create two non-stationary variables
set.seed(12345)

x <- 100 + cumsum(rnorm(1000))

y <- 200 + cumsum(rnorm(1000))

df <- data.frame(y=y, x=x)

### split between training and test

train <- df[1:800, ]  ## 80% train
test <- df[801:1000, ] ## 20% train

### linear regression

lm.mod <- lm(y~x, data=train)

summary(lm.mod)

### measure fit

library(caret)

in.sample.R2 <- R2(lm.mod$fitted.values, train$y, formula="traditional")
out.sample.R2 <- R2(predict(lm.mod, newdata=test), test$y, formula="traditional")

in.sample.R2
out.sample.R2

TLDR; Die Zukunft vorherzusagen ist schwer. Die lineare Regression unter Verwendung von Zeitreihendaten kann äußerst irreführend sein. Halten Sie einige Ihrer Daten basierend auf der sequentiellen Zeit aus (z. B. halten Sie die letzten 9 Quartale Ihrer Zeitreihe aus). Validieren Sie Ihr Modell anhand der Hold-Out-Daten.

— William Chiu
quelle