Viele Menschen (außerhalb der Fachexperten) , die denken , sie sind frequentistischen sind in der Tat Bayesian. Das macht die Debatte ein bisschen sinnlos. Ich denke, der Bayesianismus hat gewonnen, aber es gibt immer noch viele Bayesianer, die glauben, sie seien häufig. Es gibt einige Leute, die denken, dass sie keine Priors benutzen und daher denken, dass sie Frequentisten sind. Das ist gefährliche Logik. Hier geht es nicht so sehr um Prioren (gleichmäßige oder ungleichmäßige), der wirkliche Unterschied ist subtiler.
(Ich bin nicht offiziell in der Statistikabteilung; mein Hintergrund sind Mathematik und Informatik. Ich schreibe wegen Schwierigkeiten, die ich hatte, um diese "Debatte" mit anderen Nicht-Statistikern und sogar mit einigen Anfängern zu diskutieren Statistiker.)
Die MLE ist eigentlich eine Bayes'sche Methode. Einige Leute werden sagen "Ich bin ein Frequentist, weil ich die MLE verwende, um meine Parameter abzuschätzen". Ich habe dies in Fachliteratur gesehen. Dies ist Unsinn und basiert auf diesem (nicht gesagten, aber implizierten) Mythos, dass ein Frequentist jemand ist, der einen einheitlichen Prior anstelle eines uneinheitlichen Prior verwendet.
Ziehen Sie eine einzelne Zahl aus einer Normalverteilung mit bekanntem Mittelwert, und unbekannter Varianz in Betracht . Nenne diese Varianz .μ=0θ
X≡N(μ=0,σ2=θ)
Betrachten Sie nun die Wahrscheinlichkeitsfunktion. Diese Funktion hat zwei Parameter, und und gibt die Wahrscheinlichkeit für von .xθθx
f(x,θ)=Pσ2=θ(X=x)=12πθ√e−x22θ
Sie können sich vorstellen, dies in einer Heatmap mit auf der x-Achse und auf der y-Achse und unter Verwendung der Farbe (oder der z-Achse) zu zeichnen. Hier ist die Handlung mit Konturlinien und Farben.xθ
Zunächst einige Beobachtungen. Wenn Sie sich auf einen einzelnen Wert von festlegen , können Sie den entsprechenden horizontalen Schnitt durch die Heatmap ziehen. Dieses Slice gibt Ihnen das PDF für diesen Wert von . Offensichtlich ist die Fläche unter der Kurve in diesem Schnitt 1. Wenn Sie dagegen einen einzelnen Wert von festlegen und dann den entsprechenden vertikalen Schnitt betrachten, gibt es keine solche Garantie für die Fläche unter der Kurve .θθx
Diese Unterscheidung zwischen horizontalen und vertikalen Schichten ist von entscheidender Bedeutung, und ich fand, dass diese Analogie mir half, den frequentistischen Ansatz der Voreingenommenheit zu verstehen .
Ein Bayesianer ist jemand, der sagt
Werte von ergeben für diesen Wert von x einen ausreichend hohen Wert von ?θf(x,θ)
Alternativ könnte ein Bayesianer ein vorheriges , aber sie sprechen immer noch darüberg(θ)
Werte von ergeben für diesen Wert von x einen ausreichend hohen Wert von ?f ( x , θ ) g ( θ )θf(x,θ)g(θ)
Ein Bayesianer korrigiert also x und betrachtet die entsprechende vertikale Schicht in diesem Konturdiagramm (oder in dem Variantendiagramm, das den Prior enthält). In diesem Slice muss die Fläche unter der Kurve nicht 1 sein (wie ich bereits sagte). Ein Bayesianisches 95% glaubwürdiges Intervall (CI) ist das Intervall, das 95% der verfügbaren Fläche enthält. Wenn die Fläche beispielsweise 2 ist, muss die Fläche unter dem Bayes'schen CI 1,9 sein.
Auf der anderen Seite wird ein Frequentist x ignorieren und zuerst überlegen, reparieren , und wird fragen:θ
Werte von x treten in diesem am häufigsten auf?θ
In diesem Beispiel lautet eine Antwort auf diese häufig gestellte Frage mit : "Für ein gegebenes werden 95% des zwischen und . "θ x - 3 √N(μ=0,σ2=θ)θx +3 √−3θ√+3θ√
Ein Frequentist befasst sich also mehr mit den horizontalen Linien, die festen Werten von .θ
Dies ist nicht der einzige Weg, das frequentistische CI zu konstruieren, es ist nicht einmal ein guter (enger), aber halte einen Moment mit mir aus.
Das Wort "Intervall" lässt sich am besten nicht als Intervall in einer 1-d-Linie interpretieren, sondern als Bereich in der obigen 2-d-Ebene. Ein "Intervall" ist eine Teilmenge der 2D-Ebene, nicht einer 1-D-Linie. Wenn jemand ein solches "Intervall" vorschlägt, müssen wir testen, ob das "Intervall" bei einem 95% igen Vertrauens- / Glaubwürdigkeitsniveau gültig ist.
Ein Frequentist überprüft die Gültigkeit dieses "Intervalls", indem er nacheinander jeden horizontalen Schnitt betrachtet und den Bereich unter der Kurve betrachtet. Wie ich bereits sagte, wird die Fläche unter dieser Kurve immer eine sein. Entscheidend ist, dass die Fläche innerhalb des Intervalls mindestens 0,95 beträgt .
Ein Bayesianer überprüft die Gültigkeit, indem er stattdessen die vertikalen Schichten betrachtet. Auch hier wird der Bereich unter der Kurve mit dem Unterbereich verglichen, der sich unter dem Intervall befindet. Wenn der letztere mindestens 95% des ersteren beträgt, dann ist das "Intervall" ein gültiges 95% Bayes-glaubwürdiges Intervall.
Nachdem wir nun wissen, wie wir testen können, ob ein bestimmtes Intervall "gültig" ist, stellt sich die Frage, wie wir die beste Option unter den gültigen Optionen auswählen. Dies kann eine schwarze Kunst sein, aber im Allgemeinen möchten Sie das engste Intervall. Beide Ansätze stimmen hier tendenziell überein - die vertikalen Schichten werden berücksichtigt und das Ziel ist es, das Intervall innerhalb jeder vertikalen Schicht so eng wie möglich zu halten.
Ich habe im obigen Beispiel nicht versucht, ein möglichst enges Konfidenzintervall für Frequentisten zu definieren. In den Kommentaren von @cardinal unten finden Sie Beispiele für engere Intervalle. Mein Ziel ist es nicht, die besten Intervalle zu finden, sondern den Unterschied zwischen den horizontalen und vertikalen Schichten bei der Bestimmung der Gültigkeit hervorzuheben. Ein Intervall, das die Bedingungen eines 95% igen Konfidenzintervalls für Frequentisten erfüllt, erfüllt normalerweise nicht die Bedingungen eines 95% igen glaubwürdigen Bayes'schen Intervalls und umgekehrt.
Beide Ansätze wünschen enge Intervalle, dh wenn wir eine vertikale Schicht betrachten, wollen wir das (1-d) -Intervall in dieser Schicht so eng wie möglich machen. Der Unterschied besteht darin, wie die 95% erzwungen werden - ein Frequentist untersucht nur die vorgeschlagenen Intervalle, in denen 95% der Fläche jeder horizontalen Schicht unter dem Intervall liegen, während ein Bayesianer darauf besteht, dass jede vertikale Schicht 95% der Fläche ausmacht unter dem Intervall.
Viele Nicht-Statistiker verstehen das nicht und konzentrieren sich nur auf die vertikalen Schichten. Das macht sie zu Bayesianern, auch wenn sie anders denken.