Werden Bayesianische Priors bei großen Stichproben irrelevant?


26

Bei der Bayes'schen Inferenz maximieren wir unsere Wahrscheinlichkeitsfunktion in Kombination mit den Prioritäten, die wir für die Parameter haben. Da die Log-Wahrscheinlichkeit praktischer ist, maximieren wir effektiv Verwendung einer MCMC oder auf andere Weise, die die hinteren Verteilungen generiert (unter Verwendung eines PDFs für die Priorität jedes Parameters und die Wahrscheinlichkeit jedes Datenpunkts).ln(vor)+ln(Wahrscheinlichkeit)

Wenn wir über eine Menge Daten verfügen, wird die Wahrscheinlichkeit, dass sich daraus Daten ergeben, durch einfache Mathematik überwältigen. Letztendlich ist dies gut und beabsichtigt; wir wissen, dass der posterior nur mit der Wahrscheinlichkeit von mehr Daten konvergieren wird, weil es so sein soll.

Für Probleme, die von konjugierten Vorfahren definiert wurden, ist dies sogar genau nachweisbar.

Gibt es eine Möglichkeit zu entscheiden, wann Prioritäten für eine bestimmte Wahrscheinlichkeitsfunktion und eine bestimmte Stichprobengröße keine Rolle spielen?


3
Dein erster Satz ist nicht richtig. Bayes'sche Inferenz und der MCMC-Algorithmus maximieren die Wahrscheinlichkeit nicht.
Niandra82

5
Kennen Sie die marginale Wahrscheinlichkeit, Bayes-Faktoren, die Verteilung vor / nach der Vorhersage und die Prüfung vor / nach der Vorhersage? Diese Art von Dingen würden Sie verwenden, um Modelle in einem Bayes'schen Paradigma zu vergleichen. Ich denke, diese Frage läuft darauf hinaus, ob der Bayes-Faktor zwischen Modellen, die sich nur durch den vorherigen unterscheiden, gegen 1 konvergiert, wenn die Stichprobengröße unendlich wird. Möglicherweise möchten Sie auch Prioritäten beiseite legen, die innerhalb des durch die Wahrscheinlichkeit implizierten Parameterraums abgeschnitten sind, da dies möglicherweise die Konvergenz des Ziels mit der maximalen Wahrscheinlichkeitsschätzung verhindern kann.
Zachary Blumenfeld

@ ZacharyBlumenfeld: Dies könnte als richtige Antwort qualifizieren!
Xi'an

Ist die korrigierte Form "Maximierung der Bayes'schen Regel"? Außerdem basieren die Modelle, mit denen ich arbeite, auf physischen Daten, sodass abgeschnittene Parameterräume für die Arbeit erforderlich sind. (Ich stimme auch zu, dass Ihre Kommentare wahrscheinlich eine Antwort sind. Können Sie sie @ ZacharyBlumenfeld näher erläutern?)
Pixel

Antworten:


37

So einfach ist das nicht. Informationen in Ihren Daten überwältigen frühere Informationen. Nicht nur Ihre Stichprobengröße ist groß, sondern auch, wenn Ihre Daten genügend Informationen enthalten, um die früheren Informationen zu überdecken. Nicht informative Prioritäten lassen sich leicht von Daten überzeugen, während stark informative Prioritäten widerstandsfähiger sein können. Im Extremfall können Ihre Daten bei schlecht definierten Prioritäten diese möglicherweise überhaupt nicht überwinden (z. B. Nulldichte in bestimmten Regionen).

Recall , dass von Bayes Theorem verwenden wir zwei Informationsquellen im statistischen Modell, out-of-Daten, vor Informationen und Informationen , die von Daten in befördert Likelihood - Funktion:

hinterevor×Wahrscheinlichkeit

Bei Verwendung nicht informativer Prioritäten (oder maximaler Wahrscheinlichkeiten) versuchen wir, möglichst wenige Vorinformationen in unser Modell aufzunehmen. Mit informativen Priors bringen wir eine erhebliche Menge an Informationen in das Modell ein. Sowohl die Daten als auch die vorherigen geben uns Auskunft darüber, welche Werte der geschätzten Parameter plausibler oder glaubwürdiger sind. Sie können unterschiedliche Informationen einbringen und in einigen Fällen die jeweils anderen überwältigen.

Lassen Sie mich dies mit einem sehr einfachen Beta-Binomial-Modell veranschaulichen (siehe hier für ein detailliertes Beispiel ). Mit "uninformativem" Vorgänger kann eine ziemlich kleine Stichprobe ausreichen, um sie zu überwältigen. In den Darstellungen unten sehen Sie die Prioritäten (rote Kurve), die Wahrscheinlichkeit (blaue Kurve) und die Posterioren (violette Kurve) desselben Modells mit unterschiedlichen Stichprobengrößen.

Bildbeschreibung hier eingeben

Auf der anderen Seite können Sie informative Prioritäten haben, die dem wahren Wert nahe kommen. Dies ist ebenfalls einfach, aber nicht so einfach wie bei wöchentlichen informativen Prioritäten, die von Daten überzeugt werden.

Bildbeschreibung hier eingeben

Bei informativen Prioritäten ist der Fall ganz anders, wenn es weit von den Daten entfernt ist (unter Verwendung der gleichen Daten wie im ersten Beispiel). In diesem Fall benötigen Sie eine größere Stichprobe, um den vorherigen zu überwinden.

Bildbeschreibung hier eingeben

Es geht also nicht nur um die Stichprobengröße, sondern auch um Ihre Daten und Ihre Prioritäten. Beachten Sie, dass es sich um ein gewünschtes Verhalten, denn wenn informativ priors verwenden wir mögen , um möglicherweise umfasst out-of-Dateninformationen in unserem Modell und das wäre unmöglich, wenn große Proben würden immer die priors verwerfen.

Aufgrund der komplizierten Beziehung zwischen posteriorer Wahrscheinlichkeit und vorheriger Wahrscheinlichkeit ist es immer gut, die posteriore Verteilung zu betrachten und einige posteriore Vorhersageprüfungen durchzuführen (Gelman, Meng und Stern, 1996; Gelman und Hill, 2006; Gelman et al., 2004). Darüber hinaus können Sie, wie von Spiegelhalter (2004) beschrieben, verschiedene Prioritäten verwenden, zum Beispiel "pessimistisch", die Zweifel an großen Effekten ausdrücken, oder "enthusiastisch", die optimistisch in Bezug auf geschätzte Effekte sind. Der Vergleich des Verhaltens verschiedener Priors mit Ihren Daten kann hilfreich sein, um informell zu beurteilen, inwieweit der posterior durch den vorherigen Einfluss beeinflusst wurde.


Spiegelhalter, DJ (2004). Bayesianische Ideen in die Bewertung des Gesundheitswesens einbeziehen. Statistical Science, 156 & ndash; 174.

Gelman, A., Carlin, JB, Stern, HS und Rubin, DB (2004). Bayesianische Datenanalyse. Chapman & Hall / CRC.

Gelman, A. und Hill, J. (2006). Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen. Cambridge University Press.

Gelman, A., Meng, XL und Stern, H. (1996). Posteriore prädiktive Beurteilung der Modelleignung über realisierte Diskrepanzen. Statistica sinica, 733 & ndash; 760.


2
Netter Beitrag, danke Tim. Ich möchte hinzufügen, dass der Kontrast, den Sie hier so schön darstellen, sich selbst innerhalb ein und desselben Modells in Bezug auf verschiedene Parameter dieses Modells darstellen kann. Es kann einige Parameter geben, über die die Daten vernachlässigbare Informationen liefern. In diesem Fall können Prioritäten kritisch dazu dienen, identifizierende Einschränkungen bereitzustellen .
David C. Norris

Sind die Grafiken in der ersten 3x3-Matrix der Grafiken korrekt? Der posterior ist vollständig flach bis einschließlich n = 25?
MichiganWater

1
@MichiganWater Für jede 9-Plot-Sammlung wird dieselbe Skalierung für die y-Achse verwendet, damit die größten Werte nicht aus dem Bildschirm verschwinden. Sie sind also flach im Vergleich zu dem Fall, in dem Sie mehr Daten haben. Wenn Sie "hineingezoomt" haben, sind sie nicht flach.
Tim

11

Bei der Bayes'schen Inferenz maximieren wir unsere Wahrscheinlichkeitsfunktion in Kombination mit den Prioritäten, die wir für die Parameter haben.

Dies ist eigentlich nicht das, was die meisten Praktizierenden als bayesianische Folgerung betrachten. Es ist möglich, Parameter auf diese Weise zu schätzen, aber ich würde es nicht Bayes'sche Folgerung nennen.

In der Bayes'schen Inferenz werden Posteriorverteilungen verwendet, um Posteriorwahrscheinlichkeiten (oder Wahrscheinlichkeitsverhältnisse) für konkurrierende Hypothesen zu berechnen.

Posteriore Verteilungen können empirisch mit Monte-Carlo- oder Markov-Chain-Monte-Carlo-Techniken (MCMC) geschätzt werden.

Abgesehen von diesen Unterscheidungen stellt sich die Frage

Werden Bayesianische Priors bei großen Stichproben irrelevant?

hängt immer noch vom Kontext des Problems ab und was Sie interessiert.

Wenn Ihnen die Vorhersage bei einer bereits sehr großen Stichprobe wichtig ist, lautet die Antwort in der Regel Ja, die Prioritäten sind asymptotisch irrelevant *. Wenn Ihnen jedoch die Modellauswahl und das Testen der Bayes'schen Hypothese am Herzen liegen, lautet die Antwort "Nein". Die Prioritäten spielen eine große Rolle und ihr Effekt verschlechtert sich nicht mit der Stichprobengröße.

* Hier gehe ich davon aus, dass die Prioritäten nicht über den durch die Wahrscheinlichkeit implizierten Parameterraum hinaus abgeschnitten / zensiert werden und dass sie nicht so schlecht spezifiziert sind, dass sie in wichtigen Regionen Konvergenzprobleme mit einer Dichte nahe Null verursachen. Mein Argument ist auch asymptotisch, was mit allen üblichen Einschränkungen einhergeht.

Prädiktive Dichte

dN=(d1,d2,...,dN)dif(dNθ)θ

π0(θλ1)π0(θλ2)λ1λ2

πN(θdN,λj)f(dNθ)π0(θλj)forj=1,2

θθNjπN(θdN,λj)θ^N=maxθ{f(dNθ)}θN1θN2θ^Nθε>0

limNPr(|θNjθ|ε)=0j{1,2}limNPr(|θ^Nθ|ε)=0

θNj=maxθ{πN(θdN,λj)}

f(d~dN,λj)=Θf(d~θ,λj,dN)πN(θλj,dN)dθf(d~dN,θNj)f(d~dN,θ)

Modellauswahl und Hypothesentest

Wenn man sich für die Bayes'sche Modellauswahl und das Testen von Hypothesen interessiert, sollte man sich bewusst sein, dass die Wirkung des Prior nicht asymptotisch verschwindet.

f(dNmOdel)

KN=f(dNmOdel1)f(dNmOdel2)
Pr(mOdeljdN)=f(dNmOdelj)Pr(mOdelj)l=1Lf(dNmOdell)Pr(mOdell)

f(dNλj)=Θf(dNθ,λj)π0(θλj)dθ

f(dNλj)=n=0N-1f(dn+1dn,λj)
Von oben wissen wir das f(dN+1dN,λj) konvergiert zu f(dN+1dN,θ), but it is generally not true that f(dNλ1) converges to f(dNθ), nor does it converge to f(dNλ2). This should be apparent given the product notation above. While latter terms in the product will be increasingly similar, the initial terms will be different, because of this, the Bayes factor
f(dNλ1)f(dNλ2)p1
This is an issue if we wished to calculate a Bayes factor for an alternative model with different likelihood and prior. For example consider the marginal likelihood h(dNM)=Θh(dNθ,M)π0(θM)dθ; then
f(dNλ1)h(dNM)f(dNλ2)h(dNM)
asymptotically or otherwise. The same can be shown for posterior probabilities. In this setting the choice of the prior significantly effects the results of inference regardless of sample size.

5

Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.

As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.

And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.