Warum multiplizieren sich hier die Wahrscheinlichkeitsverteilungen?

Sei zum Beispiel die Anzahl der verbleibenden Tage. Ein Arzt 1 bewertet die Verteilung von als Gauß: . Ein anderer unabhängiger Arzt 2 bewertet . Beide Ärzte sind gleichermaßen zuverlässig. Wie kombiniere ich beide Informationen? $X$ $X$ $P(X)\sim\mathcal{N}(\mu_1,\sigma_1)$ $P(X)\sim\mathcal{N}(\mu_2,\sigma_2)$

In diesem Blog-Artikel sagt der Autor das

Wenn wir zwei Wahrscheinlichkeiten haben und die Chance wissen wollen, dass beide wahr sind, multiplizieren wir sie einfach miteinander. Also nehmen wir die beiden Gaußschen Blobs und multiplizieren sie:

Bearbeiten Die meisten Leute (ich habe diese Frage zuerst auf math.SE gestellt) haben geantwortet, dass dies die triviale Unabhängigkeitsrelation aber ich habe immer noch Schwierigkeiten zu verstehen, was und in diesem Zusammenhang sein: wahrscheinlich keine Ereignisse wie "die Würfel geben eine 3" oder "der Patient ist krank". Es gibt wahrscheinlich auch etwas mehr, da das Produkt zweier Dichten keine Wahrscheinlichkeitsdichte ist, da im Allgemeinen . So einfach ist das wahrscheinlich nicht. $P(A\cap B)=P(A)P(B)$ $A$ $B$ $\int_\mathbb{R} P(x)^2 \neq 1$

Nehmen wir ein anderes Beispiel. Ein Experte 1 sagt Ihnen, dass ein Würfel perfekt ausbalanciert ist. Ein anderer Experte 2 sagt Ihnen unabhängig davon dasselbe. Dann ist die Wahrscheinlichkeit, dass die Würfel eine 3 ergeben, sicherlich nicht . $1/6^2$

probability normal-distribution

— verstanden
quelle

Diese Vorgänge werden auf ausgeführt Wahrscheinlichkeiten statt Wahrscheinlichkeiten. Obwohl die Unterscheidung subtil sein mag, haben Sie einen entscheidenden Aspekt identifiziert: Das Produkt zweier Dichten ist niemals eine Dichte.

Die Sprache im Blog weist darauf hin - aber gleichzeitig wird es auf subtile Weise falsch - also analysieren wir es:

Der Mittelwert dieser Verteilung ist die Konfiguration, für die beide Schätzungen am wahrscheinlichsten sind, und ist daher die beste Schätzung der tatsächlichen Konfiguration angesichts aller uns vorliegenden Informationen.

Wir haben bereits festgestellt, dass das Produkt keine Distribution ist. (Obwohl es durch Multiplikation mit einer geeigneten Zahl in eins umgewandelt werden könnte, ist das hier nicht der Fall.)
Die Wörter "Schätzungen" und "beste Vermutung" zeigen an, dass diese Maschinerie verwendet wird, um einen Parameter zu schätzen - in diesem Fall die "wahre Konfiguration" (x, y-Koordinaten).
Leider ist der Mittelwert ist nicht die beste Vermutung. Der Modus ist. Dies ist das Maximum Likelihood (ML) -Prinzip.

Damit die Erklärung des Blogs Sinn macht, müssen wir Folgendes annehmen. Erstens gibt es einen wahren, bestimmten Ort. Nennen wir es abstrakt . Zweitens meldet nicht jeder "Sensor" . Stattdessen wird ein Wert , der wahrscheinlich in der Nähe von . Das "Gaußsche" des Sensors gibt die Wahrscheinlichkeitsdichte für die Verteilung von . Um ganz klar zu sein, ist die Dichte für den Sensor eine Funktion , abhängig von , mit der Eigenschaft, dass für jede Region (in der Ebene) die Wahrscheinlichkeit besteht, dass der Sensor einen Wert in meldet ist $\mu$ $\mu$ $X_i$ $\mu$ $X_i$ $i$ $f_i$ $\mu$ $\mathcal{R}$ $\mathcal{R}$

Pr (X_{i} \in R) = \int_{R} f_{i} (x; μ) d x .

$\Pr(X_i \in \mathcal{R}) = \int_{\mathcal{R}} f_i(x;\mu) dx.$

Drittens wird angenommen, dass die beiden Sensoren mit physischer Unabhängigkeit arbeiten, was statistische Unabhängigkeit impliziert .

Per Definition ist die Wahrscheinlichkeit der beiden Beobachtungen die Wahrscheinlichkeitsdichte , die sie unter dieser gemeinsamen Verteilung haben würden, vorausgesetzt, der wahre Ort ist . Die Annahme der Unabhängigkeit impliziert, dass dies das Produkt der Dichten ist. Um einen subtilen Punkt zu verdeutlichen, $x_1, x_2$ $\mu$

Die Produktfunktion, die einer Beobachtung zuweist, ist keine Wahrscheinlichkeitsdichte für ; jedoch, $f_1(x;\mu)f_2(x;\mu)$ $x$ $x$
Das Produkt ist die Verbindungsdichte für das geordnete Paar . $f_1(x_1;\mu)f_2(x_2;\mu)$ $(x_1, x_2)$

In der angegebenen Abbildung ist die Mitte eines Blobs, die Mitte eines anderen und die Punkte in seinem Raum repräsentieren mögliche Werte von . Beachten Sie, dass weder noch etwas über die Wahrscheinlichkeiten von sagen sollen ! ist nur ein unbekannter fester Wert . Es ist keine Zufallsvariable. $x_1$ $x_2$ $\mu$ $f_1$ $f_2$ $\mu$ $\mu$

Hier ist eine weitere subtile Wendung: Die Wahrscheinlichkeit wird als Funktion von . Wir haben die Daten - wir versuchen nur herauszufinden, was wahrscheinlich ist. Was wir also zeichnen müssen, ist die Wahrscheinlichkeitsfunktion $\mu$ $\mu$

Λ (μ) = f_{1} (x_{1}; μ) f_{2} (x_{2}; μ) .

$\Lambda(\mu) = f_1(x_1;\mu)f_2(x_2;\mu).$

Es ist ein seltsamer Zufall, dass auch dies ein Gaußscher ist! Die Demonstration ist aufschlussreich. Lassen Sie uns die Mathematik in nur einer Dimension (anstatt in zwei oder mehr) durchführen, um das Muster zu sehen - alles verallgemeinert sich auf mehr Dimensionen. Der Logarithmus eines Gaußschen hat die Form

\log f_{i} (x_{i}; μ) = A_{i} - B_{i} (x_{i} - μ)^{2}

$\log f_i(x_i;\mu) = A_i - B_i(x_i-\mu)^2$

für die Konstanten und . Somit ist die Log-Wahrscheinlichkeit $A_i$ $B_i$

\begin{aligned} \log Λ (μ) & = A_{1} - B_{1} (x_{1} - μ)^{2} + A_{2} - B_{2} (x_{2} - μ)^{2} \\ = C - (B_{1} + B_{2}) {(μ - \frac{B_{1} x_{1} + B_{2} x_{2}}{B_{1} + B_{2}})}^{2} \end{aligned}

$\eqalign{ \log \Lambda(\mu) &= A_1 - B_1(x_1-\mu)^2 + A_2 - B_2(x_2-\mu)^2 \\ &= C - (B_1+B_2)\left(\mu - \frac{B_1x_1+B_2x_2}{B_1+B_2}\right)^2 }$

wobei nicht von abhängt . Dies ist das Protokoll eines Gaußschen, bei dem die Rolle des durch das in der Fraktion angegebene gewichtete Mittel ersetzt wurde. $C$ $\mu$ $x_i$

Kehren wir zum Haupt-Thread zurück. Die ML-Schätzung von ist der Wert, der die Wahrscheinlichkeit maximiert . Entsprechend maximiert es diesen Gaußschen Wert, den wir gerade aus dem Produkt der Gaußschen abgeleitet haben. Per Definition ist das Maximum ein Modus . Es ist Zufall - resultierend aus der Punktsymmetrie jedes Gaußschen um sein Zentrum -, dass der Modus zufällig mit dem Mittelwert übereinstimmt. $\mu$

Diese Analyse hat ergeben, dass mehrere Zufälle in der jeweiligen Situation die zugrunde liegenden Konzepte verdeckt haben:

Eine multivariate (gemeinsame) Verteilung wurde leicht mit einer univariaten Verteilung verwechselt (was nicht der Fall ist).
die Wahrscheinlichkeit sah aus wie eine Wahrscheinlichkeitsverteilung (was es nicht ist);
Das Produkt der Gaußschen ist zufällig Gaußsch (eine Regelmäßigkeit, die im Allgemeinen nicht zutrifft, wenn Sensoren auf nicht-Gaußsche Weise variieren).
und ihr Modus stimmt zufällig mit ihrem Mittelwert überein (was nur für Sensoren mit symmetrischen Antworten um die wahren Werte garantiert ist).

Nur wenn wir uns auf diese Konzepte konzentrieren und die zufälligen Verhaltensweisen beseitigen, können wir sehen, was wirklich vor sich geht.

— whuber
quelle

Vielen Dank für diese wundervolle Antwort. Es scheint, dass die Frage nicht so einfach ist, wie es scheint. Ich habe mich wirklich gefragt, warum es für mich so schwer war, das Konzept der Unabhängigkeit zu verstehen, das ich zu kennen glaubte. Ich werde mir Zeit nehmen, um sicherzustellen, dass jeder Punkt klar ist.

— anderstood

Virtuelles Kopfgeld +150. Wenn Sie schreiben "das Produkt zweier Dichten ist niemals eine Dichte", was ist mit der gleichmäßigen Dichte auf oder der in 0 gesammelten Dichte? Wäre es nicht (noch) besser zu sagen "ist im Allgemeinen keine Dichte"?

[0, 1]

$[0,1]$

— anderstood

Du hast recht. Ich dachte an eine Ungleichung, die zu einer Gleichheit werden kann, wenn alle Werte der Dichte Null, Eins oder Unendlich sind. Ihre Gegenbeispiele sind alle von diesem Typ.

— whuber

Ich sehe bereits eine ausgezeichnete Antwort, aber ich poste nur meine, da ich bereits angefangen habe, sie zu schreiben.

Arzt 1 hat dieses Vorhersagemodell: $d_1\sim N(\mu_1, \sigma_1)$

Arzt 2 hat dieses Vorhersagemodell: $d_2\sim N(\mu_2, \sigma_2)$

Damit wir also die gemeinsame Wahrscheinlichkeit bewerten können, müssen wir nur erkennen, dass dies in seit aufgrund der Unabhängigkeit der beiden Ärzte. $P(d_1,d_2)=P(d_1|d_2)P(d_2)$ $P(d_1)P(d_2)$ $P(d_1|d_2)=P(d_1)$

— Dr. Mike
quelle

Virtual +1 für die netten Details. Es ist eine Schande, dass das System mir nicht erlaubt, Ihnen die echten +1 zu geben.

— Glück

Wie würden Sie als Ereignis definieren? Zum Beispiel ist "die Würfel geben eine 3" ein Ereignis, also ist "mehr als 100 gewinnen". Hier kann ich es nicht so formulieren, weil kein pfd hat, es ist ein pfd. Zum Beispiel kann ich die Wahrscheinlichkeit berechnen, dass ich laut Arzt 1 Tage zu leben habe, aber wie ist die Wahrscheinlichkeit von ?

d_{1}

$d_1$

d_{1}

$d_1$

x

$x$

d_{1}

$d_1$

— anderstood

Vielleicht bin ich verwirrt, weil ich als Ereignis verstehe , während es eine Zufallsvariable ist. Dann ist die Zufallsvariable, die die Anzahl der verbleibenden Tage gemäß Arzt 1 beschreibt. Aber was bedeutet die gemeinsame Wahrscheinlichkeit von und ist es eine reelle Zahl in ? Was ist, wenn den Wert "3 Tage" und den Wert "4 Tage" annimmt? Ich hoffe, meine Fragen helfen Ihnen zu verstehen, was mir fehlt.

d_{1}

$d_1$

d_{1}

$d_1$

P (d_{1}, d_{2})

$P(d_1,d_2)$

[0, 1]

$[0,1]$

d_{1}

$d_1$

d_{2}

$d_2$

— anderstood

Da die Gaußschen Wahrscheinlichkeitsdichten und keine Wahrscheinlichkeiten sind, ist diese Erklärung unvollständig.

— whuber