Ich denke, dass die vorhandenen Antworten, die sehr gut sind, durch ein Beispiel mit diskreten Zufallsvariablen erweitert werden könnten. Wir habenp (xn e w∣x1, …xn) =∫∞- ∞p (xn e w, μ ∣x1, …xn) dμ =∫∞- ∞p (xn e w∣ μ ) p ( μ ∣ x1, …xn) dμ
Betrachten Sie zur Vereinfachung a μ das ist binär: p ( μ = 1 ∣x1…xn) = p und p ( μ = 0 ∣x1…xn) = 1 - p. Nehmen wir weiter anxn e w ist binär mit p ( X.= 1 ) = μ - 1 und p ( X.= 0 ) = μ. Ich werde diese Wahrscheinlichkeiten in Zukunft nicht mehr verwenden, aber Sie können das sehenxn e w kommt drauf an μ.
Nehmen wir an, wir ziehen dann 14 Proben mit μ ∼ p ( μ ∣x1, … ,xn) und xn e w∼ p (xn e w∣ μ ). Wir bekommen folgendes. Wie von @jbowman erwähnt, probieren wir tatsächlich ausp (xn e w, μ ∣x1…xn).
mu x_new
1. 1 0
2. 1 1
3. 0 0
4. 1 1
5. 0 0
6. 0 0
7. 0 0
8. 1 1
9. 1 1
10. 0 1
11. 1 0
12. 1 1
13. 0 1
14. 1 1
Wir können die Tatsache veranschaulichen, dass wir Proben aus dem Gelenk entnehmen p (xn e w, μ ∣x1, … ,xn) expliziter, indem zuerst eine Zählertabelle erstellt wird.
x_new
0 1
-----------
0 6 1
mu
1 2 5
Teilen Sie jeden Eintrag durch die Summe (6 + 1 + 2 + 5 = 14)
x_new
0 1
-----------
0 0.43 0.07
mu
1 0.14 0.36
Welches ist die empirische gemeinsame Verteilung. ZB unsere Schätzung vonp (xn e w= 0 , μ = 0 ) = 0,43. Daher hat uns unser Probenahmeverfahren die Verbindung gegeben.
Schließlich werden wir sehen, warum es tatsächlich notwendig ist, das Integral zu "bewerten" (obwohl das Integral nicht gemittelt wird). Dies ist implizit in der Antwort von @ jbowman enthalten, als sie sagten
Es ist nicht ganz intuitiv, aber wenn Sie die abgetasteten Werte von 𝜇 ignorieren, integrieren Sie darüber.
Erhalten p (xn e w∣x1…xn), wir summieren einfach über Zeilen.
x_new
0 1
-----------
.57 .43
Dies ist impliziert, indem "die abgetasteten Werte von ignoriert werden"μ"und dies ist der Marginalisierungsschritt. Eine andere Möglichkeit, dies üblicherweise zu tun, besteht darin, ein Histogramm zu erstellen (durch Summieren über Zeilen haben wir hier eine Art Histogramm erstellt).
Das Stichprobenverfahren gibt uns also keinen Rand - mit anderen Worten, es "funktioniert" nicht gemäß Ihrer Definition in der Frage. Vielmehr gibt es uns das Gelenk, und wir gemeinsam (durch Ignorierenμdurch Erstellen eines Histogramms oder durch Erhalten von Quantilen) marginalisieren μ.