Ich habe eine Weile versucht, die Idee der konjugierten Prioritäten in der Bayes'schen Statistik zu verstehen, aber ich verstehe es einfach nicht. Kann jemand die Idee auf einfachste Weise erklären, vielleicht am Beispiel des "Gaußschen Prior"?
Ich habe eine Weile versucht, die Idee der konjugierten Prioritäten in der Bayes'schen Statistik zu verstehen, aber ich verstehe es einfach nicht. Kann jemand die Idee auf einfachste Weise erklären, vielleicht am Beispiel des "Gaußschen Prior"?
Antworten:
Ein Prior für einen Parameter hat fast immer eine bestimmte funktionale Form (in Bezug auf die Dichte im Allgemeinen geschrieben). Angenommen, wir beschränken uns auf eine bestimmte Familie von Distributionen. In diesem Fall reduziert sich die Auswahl unseres Prior auf die Auswahl der Parameter dieser Familie.
Man betrachte zum Beispiel ein normales Modell . Nehmen wir der Einfachheit halber auch als bekannt an. Dieser Teil des Modells - das Modell für die Daten - bestimmt die Wahrscheinlichkeitsfunktion.
Um unser Bayes'sches Modell zu vervollständigen, benötigen wir hier einen Prior für .
Wie oben erwähnt, können wir häufig eine Verteilungsfamilie für unseren Prior für μ angeben und dann müssen wir nur die Parameter dieser Verteilung auswählen (zum Beispiel können häufig vorherige Informationen ziemlich vage sein - wie etwa, wo wir die Wahrscheinlichkeit der Konzentration haben möchten - statt einer sehr spezifischen funktionalen Form, und wir haben möglicherweise genug Freiheit, um zu modellieren, was wir wollen, indem wir die Parameter auswählen (zum Beispiel um einen früheren Mittelwert und eine Varianz abzugleichen).
Wenn sich herausstellt, dass der hintere Teil für aus derselben Familie wie der vorherige stammt, wird dieser vorherige als "konjugiert" bezeichnet.
(Was es konjugiert, ist die Art und Weise, wie es sich mit der Wahrscheinlichkeit verbindet.)
Nehmen wir also in diesem Fall einen Gaußschen Prior für (sagen wir ). Wenn wir das tun, sehen wir, dass der hintere Teil für ebenfalls Gauß ist. Folglich war der Gaußsche Prior ein konjugierter Prior für unser vorstehendes Modell.
Das ist wirklich alles - wenn der hintere Teil aus derselben Familie wie der vorherige stammt, ist es ein konjugierter Prior.
In einfachen Fällen können Sie ein Konjugat vor der Prüfung der Wahrscheinlichkeit identifizieren. Betrachten Sie beispielsweise eine Binomialwahrscheinlichkeit. Wenn man die Konstanten weglässt, sieht es aus wie eine Beta-Dichte in ; und aufgrund der Art und Weise, wie sich Potenzen von und verbinden, multipliziert es sich mit einem Beta, bevor sich auch ein Produkt der Potenzen von und ergibt Die Beta ist ein Konjugat vor in der Binomialwahrscheinlichkeit.
Im Gaußschen Fall ist es am einfachsten zu erkennen, dass dies geschieht, wenn man die Log-Dichten und die Log-Wahrscheinlichkeit berücksichtigt. Die log-Wahrscheinlichkeit wird quadratisch in und die Summe von zwei Quadratischen ist quadratisch, so dass eine quadratische log-prior + quadratische log-Wahrscheinlichkeit einen quadratischen posterior ergibt (jeder der Koeffizienten des Terms höchster Ordnung wird natürlich negativ sein).
Wenn Ihr Modell zu einer Exponentialfamilie gehört, dh wenn die Dichte der Verteilung die Form
Die Wahl des dominierenden Maßes ist für die Familie der Prioren entscheidend. Wenn zum Beispiel eine normale mittlere Wahrscheinlichkeit für wie in Glen_bs Antwort vorliegt , führt die Auswahl des Lebesgue-Maßes als dominierendes Maß dazu, dass normale Prioritäten konjugiert sind. Wählt man stattdessen als dominierendes Maß, so liegen die konjugierten Priors in der Familie der Verteilungen mit Dichten
Außerhalb dieser exponentiellen Familienumgebung gibt es keine nicht triviale Verteilungsfamilie mit einer festen Unterstützung, die konjugierte Prioritäten zulässt. Dies ist eine Folge des Darmois-Pitman-Koopman-Lemmas .
Ich benutze gerne den Begriff "Kernel" einer Distribution. Hier belassen Sie nur die Teile, die vom Parameter abhängen. Ein paar einfache Beispiele.
Beta kernel
When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data
For some constant and some function . If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood.
If we take the normal likelihood with unit variance, the above looks like
where and and
This likelihood function has the same kernel as the normal distribution for , so a conjugate prior for this likelihood is also the normal distribution.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
For a given distribution family of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution family as the posterior (e.g. Beta),
then and are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note: