Wahrscheinlichkeit
Häufige Probleme in der Wahrscheinlichkeitstheorie beziehen sich auf die Wahrscheinlichkeit von Beobachtungen gegebenem Modell und gegebenen Parametern (nennen wir sie ). Zum Beispiel sind die Wahrscheinlichkeiten für bestimmte Situationen in Kartenspielen oder Würfelspielen oft sehr einfach.x1,x2,...,xnθ
In vielen praktischen Situationen handelt es sich jedoch um eine umgekehrte Situation ( Inferenzstatistik ). Das heißt: Die Beobachtung ist gegeben und jetzt ist das Modell unbekannt , oder zumindest kennen wir bestimmte Parameter .x1,x2,...,xkθ
Bei dieser Art von Problemen beziehen wir uns häufig auf einen Begriff, der als Wahrscheinlichkeit der Parameter wird. Dies ist eine Glaubensrate an einen bestimmten Parameter gegebenen Beobachtungen . Dieser Term wird als proportional zur Wahrscheinlichkeit für die Beobachtungen ausgedrückt, unter der Annahme, dass ein Modellparameter hypothetisch wahr wäre. L(θ)θx1,x2,..xkx1,x2,..xkθL(θ,x1,x2,..xk)∝probability observations x1,x2,..xk given θ
Für einen gegebenen Parameterwert unterstützt die Beobachtung diesen bestimmten Parameter (oder die Theorie / Hypothese, die diesen Parameter annimmt) umso mehr, je wahrscheinlicher eine bestimmte Beobachtung ist (relativ zur Wahrscheinlichkeit mit anderen Parameterwerten). . Eine (relativ) hohe Wahrscheinlichkeit wird unsere Überzeugung über diesen Parameterwert stärken (dazu gibt es viel mehr Philosophisches zu sagen).θx1,x2,..xn
Wahrscheinlichkeit im deutschen Panzerproblem
Für das deutsche Panzerproblem lautet die Wahrscheinlichkeitsfunktion für eine Reihe von Proben :x1,x2,..xk
L(θ,x1,x2,..xk)=Pr(x1,x2,..xk,θ)={0(θk)−1if max(x1,x2,..xk)>θif max(x1,x2,..xk)≤θ,
Ob Sie Proben {1, 2, 10} oder Proben {8, 9, 10} beobachten, sollte keine Rolle spielen, wenn die Proben aus einer gleichmäßigen Verteilung mit dem Parameter . Beide Stichproben sind mit der Wahrscheinlichkeit gleich wahrscheinlich, und unter Verwendung der Idee der Wahrscheinlichkeit sagt die eine Stichprobe nicht mehr über den Parameter als die andere Stichprobe.θ(θ3)−1θ
Die hohen Werte {8, 9, 10} könnten Sie denken / glauben lassen, dass höher sein sollte. Es ist jedoch nur der Wert {10}, der Ihnen wirklich relevante Informationen über die Wahrscheinlichkeit von (der Wert 10 sagt Ihnen, dass zehn oder höher sein wird, die anderen Werte 8 und 9 tragen nichts zu diesen Informationen bei ).θθθ
Fisher Neyman Faktorisierungssatz
Dieser Satz sagt Ihnen, dass eine bestimmte Statistik (dh eine Funktion der Beobachtungen, wie der Mittelwert, der Median oder wie beim deutschen Panzerproblem das Maximum) ausreicht (enthält alle Informationen), wenn Sie können in der Wahrscheinlichkeitsfunktion die Terme herausrechnen, die von den anderen Beobachtungen abhängen, so dass dieser Faktor nicht sowohl vom Parameter als auch von (und Der Teil der Wahrscheinlichkeitsfunktion, der die Daten mit den hypothetischen Parameterwerten in Beziehung setzt, hängt nur von der Statistik ab, nicht jedoch von der Gesamtheit der Daten / Beobachtungen.T(x1,x2,…,xk)x1,x2,…,xkθx1,x2,…,xk
Der Fall des deutschen Panzerproblems ist einfach. Sie können oben sehen, dass der gesamte Ausdruck für die obige Wahrscheinlichkeit bereits nur von der Statistik abhängig ist und der Rest der Werte keine Rolle spielt.max(x1,x2,..xk)x1,x2,..xk
Kleines Spiel als Beispiel
Nehmen wir an, wir spielen das folgende Spiel wiederholt: ist selbst eine Zufallsvariable und wird mit gleicher Wahrscheinlichkeit entweder 100 oder 110 gezogen. Dann ziehen wir eine Stichprobe .θx1,x2,...,xk
Wir wollen eine Strategie zum Erraten von wählen , basierend auf den beobachteten , die unsere Wahrscheinlichkeit maximiert, die richtige Vermutung von .θx1,x2,...,xkθ
Die richtige Strategie besteht darin, 100 zu wählen, es sei denn, eine der Zahlen in der Stichprobe ist> 100.
Wir könnten versucht sein, den Parameterwert 110 bereits zu wählen, wenn viele der dazu neigen, alle hohe Werte nahe hundert (aber keine genau über hundert) zu sein, aber das wäre falsch. Die Wahrscheinlichkeit für eine solche Beobachtung ist größer, wenn der wahre Parameterwert 100 ist als wenn er 110 ist. Wenn wir also in einer solchen Situation 100 als Parameterwert erraten, ist es weniger wahrscheinlich, dass wir einen Fehler machen (weil der Eine Situation mit diesen hohen Werten nahe hundert, die jedoch immer noch darunter liegen, tritt häufiger auf, wenn der wahre Wert 100 beträgt, als wenn der wahre Wert 110 beträgt.x1,x2,...,xk