Kombinieren von Wahrscheinlichkeiten / Informationen aus verschiedenen Quellen


26

Nehmen wir an, ich habe drei unabhängige Quellen, von denen jede Vorhersagen für das Wetter von morgen macht. Der erste sagt, dass die Regenwahrscheinlichkeit morgen 0 ist, der zweite sagt, dass die Wahrscheinlichkeit 1 ist und der letzte sagt, dass die Wahrscheinlichkeit 50% ist. Ich würde gerne die Gesamtwahrscheinlichkeit bei diesen Informationen erfahren.

Wenn ich den Multiplikationssatz für unabhängige Ereignisse anwende, erhalte ich 0, was nicht korrekt zu sein scheint. Warum ist es nicht möglich, alle drei zu multiplizieren, wenn alle Quellen unabhängig sind? Gibt es eine bayesianische Möglichkeit, die vorherige Version zu aktualisieren, wenn ich neue Informationen erhalte?

Hinweis: Dies sind keine Hausaufgaben, über die ich nachgedacht habe.


1
Wissen Sie, wie zuverlässig die unabhängigen Quellen sind
Dilip Sarwate

Nein, a priori würde ich davon ausgehen, dass alle Quellen gleich zuverlässig sind.
Biela Diela

3
Dies ist auch eine gute Frage, über die ich nachdenke. Ich würde die zweite Frage hinzufügen: Wenn alle Vorhersagen 0,75 wären, wie hoch wäre die kombinierte Wahrscheinlichkeit? Höher als 0,75? Was wäre ein formaler Rahmen für die Analyse derartiger Fragen?
Karsten W.

2
Es gibt nicht genug Informationen. Wir brauchen ein Modell dafür, wie sich die Vorhersagen auf die Realität beziehen sollen.
Glen_b

Ich bin nicht ganz sicher, was unter "alle Quellen sind gleich zuverlässig" zu verstehen ist, wenn die Quellen Aussagen zu Wahrscheinlichkeiten oder Vertrauens- / Vertrauensniveaus enthalten. Wenn wir über die Wahrscheinlichkeit sprechen, dass eine bestimmte Wahrscheinlichkeit einen bestimmten Wert hat, dann scheint dies konzeptionelle Probleme aufzuwerfen. Übrigens, wenn die Quellen 1 und 2 gleich zuverlässig sind, müssen beide mit einer Wahrscheinlichkeit von 0,50 ... stimmen (und die Wahrscheinlichkeit von Regen ist 1/2).
AG

Antworten:


32

Sie fragen nach drei Dingen: (a) wie man mehrere Prognosen kombiniert, um eine einzige Prognose zu erhalten, (b) ob der Bayes'sche Ansatz hier verwendet werden kann und (c) wie man mit Nullwahrscheinlichkeiten umgeht.

Das Kombinieren von Prognosen ist eine gängige Praxis . Wenn Sie mehrere Prognosen haben, als wenn Sie den Durchschnitt dieser Prognosen bilden, sollte die resultierende kombinierte Prognose hinsichtlich der Genauigkeit besser sein als jede einzelne Prognose. Um sie zu mitteln, können Sie einen gewichteten Durchschnitt verwenden, bei dem die Gewichtung auf inversen Fehlern (dh Genauigkeit) oder auf dem Informationsgehalt basiert . Wenn Sie Kenntnisse über die Zuverlässigkeit jeder Quelle hätten, könnten Sie Gewichte zuweisen, die proportional zur Zuverlässigkeit jeder Quelle sind, sodass zuverlässigere Quellen einen größeren Einfluss auf die endgültige kombinierte Vorhersage haben. In Ihrem Fall haben Sie keine Kenntnis über deren Zuverlässigkeit, sodass jede Prognose das gleiche Gewicht hat und Sie das einfache arithmetische Mittel der drei Prognosen verwenden können

0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%

Wie in Kommentaren von @AndyW und @ArthurB vorgeschlagen. Neben dem einfachen gewichteten Mittelwert stehen weitere Methoden zur Verfügung. Viele solcher Methoden sind in der Literatur über die Mittelwertbildung von Expertenprognosen beschrieben, mit denen ich vorher nicht vertraut war, also danke Jungs. Bei der Mittelung von Expertenprognosen möchten wir manchmal korrigieren, dass Experten dazu neigen, auf den Mittelwert zurückzugehen (Baron et al., 2013) oder ihre Prognosen extremer zu machen (Ariely et al., 2000; Erev et al., 1994). Um dies zu erreichen, könnte man Transformationen einzelner Vorhersagen , z. B. Logit- Funktionpich

(1)lOGicht(pich)=Log(pich1-pich)

Chancen auf die te Potenzein

(2)G(pich)=(pich1-pich)ein

wobei oder allgemeinere Transformation der Form0<a<1

(3)t(pi)=piapia+(1pi)a

Wobei, wenn keine Transformation angewendet wird, wenn a > 1 einzelne Vorhersagen extremer gemacht werden, wenn 0 < a < 1 Vorhersagen weniger extrem gemacht werden, was in der folgenden Abbildung dargestellt ist (siehe Karmarkar, 1978; Baron et al., 2013) ).a=1a>10<ein<1

Bildbeschreibung hier eingeben

Nach solchen Transformationen werden Prognosen gemittelt (unter Verwendung des arithmetischen Mittels, des Medians, des gewichteten Mittels oder einer anderen Methode). Wenn die Gleichungen (1) oder (2) verwendet wurden, müssen die Ergebnisse mit inversem Logit für (1) und inversen Quoten für (2) rücktransformiert werden . Alternativ kann der geometrische Mittelwert verwendet werden (siehe Genest und Zidek, 1986; vgl. Dietrich und List, 2014).

(4)p^=ich=1Npichwichich=1Npichwich+ich=1N(1-pich)wich

oder Ansatz von Satopää et al. (2014)

(5)p^=[i=1N(pi1pi)wi]a1+[i=1N(pi1pi)wi]a

wo bin Gewichte. In den meisten Fällen werden gleiche Gewichte w i = 1 / N verwendet, es sei denn, es liegen a priori Informationen vor, die eine andere Wahl nahelegen. Solche Methoden werden bei der Mittelwertbildung von Expertenprognosen verwendet, um Unter- oder Überkonfidenz zu korrigieren. In anderen Fällen sollten Sie überlegen, ob eine Transformation von Prognosen in mehr oder weniger extreme Prognosen gerechtfertigt ist, da die daraus resultierende aggregierte Schätzung die Grenzen überschreiten kann, die durch die niedrigste und die größte Einzelprognose gekennzeichnet sind.wiwi=1/N

Wenn Sie a priori über die Regenwahrscheinlichkeit Bescheid wissen, können Sie den Bayes-Satz anwenden, um die Vorhersagen unter Berücksichtigung der a priori Regenwahrscheinlichkeit auf ähnliche Weise wie hier beschrieben zu aktualisieren . Es gibt auch einen einfachen Ansatz , die angewandt werden können, dh berechnen gewichtet Durchschnitt Ihrer Prognosen (wie oben beschrieben) , wo frühere Wahrscheinlichkeit π als zusätzlicher Datenpunkt mit einem gewissen vorgegebenen Gewicht behandelt w π wie in diesem IMDB Beispiel (siehe auch Quelle oder hier und hier zur Diskussion, vgl. Genest und Schervish, 1985), dhpiπwπ

(6)p^=(i=1Npiwi)+πwπ(i=1Nwi)+wπ

Aus Ihrer Frage geht jedoch nicht hervor, dass Sie von vornherein über Ihr Problem Bescheid wissen. Daher würden Sie wahrscheinlich von vornherein eine einheitliche Regenwahrscheinlichkeit von annehmen, und dies ändert sich im Falle des von Ihnen angegebenen Beispiels nicht wirklich.50%

Für den Umgang mit Nullen sind verschiedene Ansätze möglich. Zuerst sollten Sie bemerken, dass eine Regenwahrscheinlichkeit von kein wirklich verlässlicher Wert ist, da es unmöglich ist, dass es regnen wird. Ähnliche Probleme treten häufig bei der Verarbeitung natürlicher Sprache auf, wenn Sie in Ihren Daten einige Werte nicht beachten, die möglicherweise auftreten können (z. B. Sie zählen die Häufigkeit von Buchstaben, und in Ihren Daten treten einige ungewöhnliche Buchstaben überhaupt nicht auf). In diesem Fall ist der klassische Schätzer für die Wahrscheinlichkeit, dh0%

pich=nichichnich

Wobei eine Anzahl von Vorkommen des i- ten Werts (von d Kategorien) ist, ergibt sich p i = 0, wenn n i = 0 ist . Dies wird als Nullfrequenzproblem bezeichnet . Für solche Werte wissen Sie , dass ihre Wahrscheinlichkeit ungleich Null ist (sie existieren!), Daher ist diese Schätzung offensichtlich falsch. Es gibt auch ein praktisches Problem: Multiplizieren und Dividieren mit Nullen führt zu Nullen oder undefinierten Ergebnissen, sodass der Umgang mit Nullen problematisch ist.nichichdpich=0nich=0

Die einfache und häufig angewendete Lösung besteht darin, Ihren Zählungen ein konstantes hinzuzufügen , damitβ

pich=nich+β(ichnich)+dβ

Die gemeinsame Wahl für ist 1 , das heißt einheitliche Anwendung vor , basierend auf dem Laplaceschen Rechtsnachfolge , 1 / 2 für die Krichevsky-Trofimov Schätzung oder 1 / d für Schürmann-Grassberger (1996) Schätzer. Beachten Sie jedoch, dass Sie in Ihrem Modell (frühere) Informationen anwenden, die nicht den Daten entsprechen, so dass das Modell einen subjektiven Bayes'schen Geschmack erhält. Bei diesem Ansatz müssen Sie sich an die getroffenen Annahmen erinnern und diese berücksichtigen. Die Tatsache, dass wir stark a priori habenβ11/21/dDas Wissen, dass es in unseren Daten keine Nullwahrscheinlichkeiten geben sollte, rechtfertigt den Bayes'schen Ansatz. In Ihrem Fall haben Sie keine Häufigkeiten, sondern Wahrscheinlichkeiten. Sie würden also einen sehr kleinen Wert hinzufügen , um Nullen zu korrigieren. Beachten Sie jedoch, dass dieser Ansatz in einigen Fällen schwerwiegende Folgen haben kann (z. B. beim Umgang mit Protokollen ). Daher sollte er mit Vorsicht angewendet werden.


Schurmann, T. und P. Grassberger. (1996). Entropieschätzung von Symbolsequenzen. Chaos, 6, 41-427.

Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS und Zauberman, G. (2000). Die Auswirkungen der Mittelung subjektiver Wahrscheinlichkeitsschätzungen zwischen und innerhalb von Richtern. Journal of Experimental Psychology: Applied, 6 (2), 130.

Baron, J., Mellers, BA, Tetlock, PE, Stone, E. und Ungar, LH (2014). Zwei Gründe, um aggregierte Wahrscheinlichkeitsprognosen extremer zu machen. Decision Analysis, 11 (2), 133-145.

Erev, I., Wallsten, TS und Budescu, DV (1994). Gleichzeitiges Über- und Untervertrauen: Die Rolle von Fehlern in Beurteilungsprozessen. Psychologische Überprüfung, 101 (3), 519.

Karmarkar, US (1978). Subjektiv gewichteter Nutzen: Eine beschreibende Erweiterung des erwarteten Gebrauchsmusters. Organisationsverhalten und menschliche Leistung, 21 (1), 61-72.

Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV und Wallsten, TS (2014). Prognoseaggregation durch Neukalibrierung. Maschinelles Lernen, 95 (3), 261-289.

Genest, C. und Zidek, JV (1986). Wahrscheinlichkeitsverteilungen kombinieren: eine Kritik und eine kommentierte Bibliographie. Statistical Science, 1 , 114–135.

Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE und Ungar, LH (2014). Kombinieren mehrerer Wahrscheinlichkeitsvorhersagen mithilfe eines einfachen Logit-Modells. International Journal of Forecasting, 30 (2), 344-356.

Genest, C. und Schervish, MJ (1985). Modellierung von Expertenurteilen für die Bayes'sche Aktualisierung. Die Annalen der Statistik , 1198-1212.

Dietrich, F. und List, C. (2014). Probabilistische Meinungsbildung. (Unveröffentlicht)


2
Ich wollte das ergänzen, anstatt eine neue Antwort zu beginnen. Eine andere bekannte Methode besteht darin, die drei (oder N) Wahrscheinlichkeiten zu kombinieren, indem man ihren geometrischen Mittelwert (und nicht ihren arithmetischen Mittelwert) verwendet. Hinton weist darauf hin, dass dies einem Modell mit einer sehr hohen oder niedrigen Wahrscheinlichkeit, unter anderem der "Vetokraft", mehr gibt, als alles zu mitteln, was manchmal gegen Sie arbeiten könnte.
Zhubarb,

Wenn die drei Prognosen alle 75% betragen und keine Informationen zu ihrer Zuverlässigkeit vorliegen, wäre die endgültige Prognose 75%?
Karsten W.

@KarstenW. ja, warum erwartest du etwas anderes? Wenn Sie keine A-priori-Informationen haben, sind dies die einzigen Informationen, über die Sie verfügen. Sie haben also keinen Grund, das Endergebnis als unterschiedlich zu betrachten ...
Tim

1
Ich habe noch keine wissenschaftlichen Arbeiten von Tetlock gelesen, aber ich würde dort anfangen. Zum Beispiel zwei Gründe, um aggregierte Wahrscheinlichkeitsprognosen extremer zu machen . Ich werde Phils genauen Wortlaut nachschlagen . Vielleicht erinnere ich mich falsch an das Wort extremify .
Andy W

1
Ich war nahe am Extremen , aber nicht ganz. Ich hätte extremisierte verwenden sollen , siehe hier . Neben dem Baron et al. Aufsatz erwähnt, ich sehe Ville Satopää hat einige Arbeiten zum Thema arxiv.org/abs/1506.06405 .
Andy W

6

Es gibt zwei Möglichkeiten, sich das Problem vorzustellen. Man kann sagen, dass die Quellen eine verrauschte Version der latenten Variablen "es wird regnen / es wird nicht regnen" beobachten.

Beta(a+b,a)Beta(a,a+b)

axyz

p=11+(1x1)b(1y1)b(1z1)b

b is a parameter controlling how under (b>1) or over (b<1) confident the sources are. If we assume that the sources estimates are unbiased, then b=1 and the estimate simplifies as

p1p=x1xy1yz1z

Which is just saying: the odds of rain is the product of the odds given by each source. Note that it is not well defined if a source gives an estimate of exactly 1 and another gives an estimate of exactly 0, but under our model, this never happens, the sources are never that confident. Of course we could patch the model to allow for this to happen.

This model works better if you're thinking of three people telling you whether or not it rained yesterday. In practice, we know that there is an irreducible random component in the weather, and so it might be better to assume that nature first picks a probability of rain, which is noisily observed by the sources, and then flips a biased coin to decide whether or not it is going to rain.

In that case, the combined estimate would look much more like an average between the different estimates.


What would x, y, z be in this model?
Karsten W.

It would be the three different predictions.
Arthur B.

The example you were wondering about would be x=y=z=34. In the framework I suggested as a reasonable choice, you would have p=2728. This is because 34 represents 3 to 1 odds, so the product represents 27 to 1 odds, or a 2728 probability.
Arthur B.

Going from 3/4 to 27/28 is a bit extreme, it is like three people were telling you that the sky is dark blue and you concluded it is black...
Tim

It depends on the model. Here I'm assuming each source has a noisy view on a latent binary variable, rain or no rain. It's more like three different people tell you it rained yesterday. You can also model the system as there being a latent probability of rain and the forecast sources as getting a noisy version of that forecast.
Arthur B.

3

In the framework of Transferable Belief Model (TBM), it is possible to combine different predictions using for instance the "conjunctive rule of combination". In order to apply this rule, you need to transform the probabilities of the predictions into basic belief assignments. This can be achieved with the so-called Least-Committed-Principle. In R:

library(ibelief)
#probabilities
p1 <- c(0.99, 0.01) # bad results for 0 and 1
p2 <- c(0.01, 0.99)
p3 <- c(0.5, 0.5)

# basic belief assignment, 
# each row represents a subset of (rain, not rain)
# each column represents one prediction
Mat <- LCPrincple(rbind(p1,p2,p3))

# combine beliefs
m <- DST(Mat, 1)

# resulting probability distribution (pignistic probability)
mtobetp(m)
# returns 0.5 and 0.5

For the second example of three independent predictions of 0.75, this approach returns a higher value:

p4 <- c(0.75, 0.25)
Mat <- LCPrincple(rbind(p4,p4,p4))
m <- DST(Mat, 1)
mtobetp(m)
#returns 0.9375 0.0625

This is not very far from the Bayesian approach shown in Arthur B's answer.


2

I think it's worthwhile to look at the weighting scheme based on inverse errors mentioned in one of the answers. If the sources are truly independent and we constrain the weights to sum to one, the weights are given by

w1=σ22σ32σ12σ22+σ12σ32+σ22σ32, w2=σ12σ32σ12σ22+σ12σ32+σ22σ32, w3=σ12σ22σ12σ22+σ12σ32+σ22σ32.

If, as the OP states, the forecasts are equally reliable, then all weights will simplify to 13 and the combined forecast for the given example will be 50%.

Note that the values of σi do not need to be known if their relative proportions are known. So if σ12:σ22:σ32=1:2:4, then the forecast in the example would be

f=814(0)+414(1)+214(0.5)=0.3571

1

Their numbers for rain likelihood is only half the story, as we'd have to temper their predictions with the probability that they are accurate when making guesses.

Because something like rain is mutually exclusive(it's either raining or isn't, in this setup), they cannot all simultaneously be correct with 75% probability as Karsten suggested (I think, hard to tell with the confusion I hear about what it means to find "combined probability").

Taking into consideration their individual abilities to predict the weather, we could take a stab (a la Thomas Bayes, as in a generally blind shot in the dark) at what the chance of rain is tomorrow.

Station 1 is correct in their predictions 60% of the time, the second 30% of the time, and the last station a poor 10% of the time.

E [Regen] = Px X + Py Y + Pz * Z ist die Form, die wir hier betrachten:

(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [Regen] = 35% Regenwahrscheinlichkeit mit erfassten Vorhersagegenauigkeiten.


1
Dieser Algorithmus kann Werte über 1 erzeugen.
Andy W

1

Es gibt viele komplizierte Antworten auf diese Frage, aber was ist mit dem inversen varianzgewichteten Mittelwert: https://en.wikipedia.org/wiki/Inverse-variance_weighting

Anstelle von n wiederholten Messungen mit einem Instrument, wenn der Experimentator mit n verschiedenen Instrumenten mit unterschiedlicher Qualität der Messungen n von derselben Menge durchführt ...

Jede Zufallsvariable wird umgekehrt proportional zu ihrer Varianz gewichtet.

Der inverse Varianz gewichtete Durchschnitt scheint sehr einfach zu berechnen zu sein und weist als Bonus die geringste Varianz unter allen gewichteten Durchschnitten auf.


-1

Um Zuverlässigkeit zu kombinieren, lautet meine Go-to-Formel r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3) .75 ^ 3 ÷ (.75 ​​^ 3 + .25 ^ 3) => 96% Zuverlässigkeit der kombinierten Antwort


1
Dies scheint keine richtige Antwort auf die Frage zu sein.
Michael R. Chernick

Zugegebenermaßen war es eher eine Antwort auf KarstenW-Kommentare als eine direkte Antwort auf die Frage.
user3902302
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.