Das Zitat ist ein "logisches Kunststück" (großartiger Ausdruck!), Wie @whuber in den Kommentaren zum OP feststellte. Das einzige, was wir wirklich sagen können, nachdem wir gesehen haben, dass die Münze einen Kopf und einen Schwanz hat, ist, dass beide Ereignisse "Kopf" und "Schwanz" nicht unmöglich sind. Somit könnten wir einen diskreten Prior verwerfen, der die gesamte Wahrscheinlichkeitsmasse auf "Kopf" oder "Schwanz" legt. Dies führt jedoch nicht von alleine zum Uniformprior: Die Frage ist viel subtiler. Lassen Sie uns zunächst ein wenig Hintergrundwissen zusammenfassen. Wir betrachten das Beta-Binominal-Konjugatmodell für die Bayes'sche Folgerung der Wahrscheinlichkeit von Münzköpfen bei n unabhängigen und identisch verteilten (bedingt durch θ ) Münzwürfen.θnθ wenn wir x Köpfe in n Würfen beobachten:p(θ|x)xn
p(θ|x)=Beta(x+α,n−x+β)
Wir können sagen, dass und β die Rolle einer "vorherigen Anzahl von Köpfen" und einer "vorherigen Anzahl von Schwänzen" (Pseudotrials) spielen und α + β als effektive Stichprobengröße interpretiert werden kann. Wir könnten zu dieser Interpretation auch kommen, indem wir den bekannten Ausdruck für den hinteren Mittelwert als gewichteten Durchschnitt des vorherigen Mittelwerts α verwendenαβα+β und der Probenmittelwertxαα+β .xn
Wenn wir , können wir zwei Überlegungen anstellen:p(θ|x)
- Da wir keine Vorkenntnisse über (maximale Unwissenheit) haben, erwarten wir intuitiv, dass die effektive Stichprobengröße α + β "klein" ist. Wenn es groß wäre, würde der Prior ziemlich viel Wissen beinhalten. Eine andere Art, dies zu sehen, ist die Feststellung, dass, wenn α und β in Bezug auf x und n - x "klein" sind , die hintere Wahrscheinlichkeit nicht sehr von unserem Prior abhängt, da
x + α ≈ x und n - x + β ≈ n - xθα+βαβxn−xx+α≈xn−x+β≈n−x. Wir würden erwarten, dass ein Prior, der nicht viel Wissen enthält, angesichts einiger Daten schnell irrelevant werden muss.
Auch da ist der vorherige Mittelwert, und wir haben keine Vorkenntnisse über die Verteilung von
θ, wir würdenμprior=0,5erwarten. Dies ist ein Argument der Symmetrie - wenn wir es nicht besser wissen, würden wir nichta priorierwarten,dass die Verteilung gegen 0 oder gegen 1 verschoben ist. Die Beta-Verteilung istμprior=αα+βθμprior=0.5
f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα−1(1−θ)β−1
Dieser Ausdruck ist nur um symmetrisch, wenn
α = β .θ=0.5α=β
Aus diesen beiden Gründen erwarten wir intuitiv, dass und c "klein" ist , unabhängig davon, welches Prior (zur Beta-Familie gehörend - denken Sie daran, konjugiertes Modell!), Das wir verwenden . Wir können sehen, dass alle drei häufig verwendeten nicht informativen Prioritäten für das Beta-Binomial-Modell diese Merkmale gemeinsam haben, aber ansonsten sind sie sehr unterschiedlich. Und das ist offensichtlich: Kein Vorwissen oder "maximale Ignoranz" ist keine wissenschaftliche Definition. Welche Art von Prior "maximale Ignoranz" ausdrückt, dh was ein nicht informativer Prior ist, hängt davon ab, was Sie tatsächlich als "Maximum" meinen Ignoranz".α=β=cc
wir könnten einen Prior wählen, der besagt, dass alle Werte für wahrscheinlich sind, da wir es nicht besser wissen. Wieder ein Symmetrieargument. Dies entspricht α = β = 1 :θα=β=1
f(θ|1,1)=Γ(2)2Γ(1)θ0(1−θ)0=1
für , dh den von Kruschke verwendeten Uniformprior. Wenn Sie den Ausdruck für die differentielle Entropie der Beta-Verteilung ausschreiben, können Sie formal sehen, dass sie maximiert ist, wenn
α = β = 1 ist . Jetzt wird Entropie oft als Maß für die "Informationsmenge" interpretiert, die von einer Verteilung getragen wird: Eine höhere Entropie entspricht weniger Informationen. Sie können dieses Prinzip der maximalen Entropie also verwenden, um zu sagen, dass innerhalb der Beta-Familie der Prior, der weniger Informationen enthält (maximale Ignoranz), dieser einheitliche Prior ist.θ∈[0,1]α=β=1
Sie könnten eine andere Sichtweise wählen, die vom OP verwendet wird, und sagen, dass keine Information bedeutet, keine Köpfe und keinen Schwanz gesehen zu haben, dh
α=β=0⇒π(θ)∝θ−1(1−θ)−1
Der Prior, den wir auf diese Weise erhalten, wird als Haldane-Prior bezeichnet . Die Funktion hat ein kleines Problem - das Integral über I = [ 0 , 1 ] ist unendlich, dh unabhängig von der Normalisierungskonstante kann es nicht in ein geeignetes PDF umgewandelt werden. Tatsächlich ist der Haldane-Prior eine richtige pmf , die die Wahrscheinlichkeit 0,5 auf θ = 0 , 0,5 auf θ = 1 und die Wahrscheinlichkeit 0 auf alle anderen Werte für θ setztθ−1(1−θ)−1I=[0,1]θ=0θ=1θ. Lassen Sie sich jedoch nicht mitreißen - für einen kontinuierlichen Parameter werden Prioritäten, die keinem richtigen PDF entsprechen, als falsche Prioritäten bezeichnet . Da, wie bereits erwähnt, für die Bayes'sche Folgerung nur die posteriore Verteilung von Bedeutung ist, sind falsche Prioritäten zulässig, solange die posteriore Verteilung korrekt ist. Im Fall des Haldane-Prior können wir beweisen, dass das hintere PDF korrekt ist, wenn unsere Stichprobe mindestens einen Erfolg und einen Misserfolg enthält. Daher können wir den Haldane nur dann verwenden, wenn wir mindestens einen Kopf und einen Schwanz beobachten. θ
Es gibt einen anderen Sinn, in dem der Haldane-Prior als nicht informativ angesehen werden kann: Der Mittelwert der posterioren Verteilung ist jetzt
, dh die Abtastfrequenz von Köpfen, die die häufigere MLE-Schätzung von
θfür das Binomialmodell des Münzwurfproblems ist. Auch die glaubwürdigen Intervalle fürθentsprechen den Wald-Konfidenzintervallen. Da frequentistische Methoden keinen Prior angeben, könnte man sagen, dass der Haldane-Prior nicht informativ ist oder null Vorwissen entspricht, da dies zu der "gleichen" Schlussfolgerung führt, die ein Frequentist ziehen würde.α+xα+β+n=xnθθ
Schließlich könnten Sie einen Prior verwenden, der nicht von der Parametrisierung des Problems abhängt, dh den Jeffreys-Prior, der für das Beta-Binomial-Modell entspricht
α=β=12⇒π(θ)∝θ−12(1−θ)−12
somit mit einer effektiven Stichprobengröße von 1. Der Jeffreys-Prior hat den Vorteil, dass er bei Reparametrisierung des Parameterraums unveränderlich ist. Beispielsweise weist der einheitliche Prior allen Werten von , der Wahrscheinlichkeit des Ereignisses "Kopf", die gleiche Wahrscheinlichkeit zu . Sie können dieses Modell jedoch in Bezug auf die logarithmischen Quoten λ = l o g ( θ) parametrisierenθdes Ereignisses "Kopf" anstelle vonθ. Was ist der Prior, der "maximale Ignoranz" in Bezug auf Log-Quoten ausdrückt, dh der besagt, dass alle möglichen Log-Quoten für Ereignis "Kopf" gleich wahrscheinlich sind? Es ist der Haldane-Prior, wie in dieser (leicht kryptischen)Antwort gezeigt. Stattdessen ist der Jeffreys bei allen Änderungen der Metrik unveränderlich. Jeffreys gab an, dass ein Prior, der diese Eigenschaft nicht besitzt, in gewisser Weise informativ ist, da er Informationen zu der Metrik enthält, mit der Sie das Problem parametrisiert haben. Sein Prior tut es nicht.λ=log(θ1−θ)θ
Zusammenfassend lässt sich sagen, dass es im Beta-Binomial-Modell nicht nur eine eindeutige Wahl für einen nicht informativen Prior gibt. Was Sie wählen, hängt davon ab, was Sie als Null-Vorwissen meinen, und von den Zielen Ihrer Analyse.