Warum ist die Dirichlet-Verteilung bei der Multinomialverteilung die Priorität?

36

Im LDA-Themenmodell-Algorithmus habe ich diese Annahme gesehen. Aber ich weiß nicht, warum ich Dirichlet-Distribution gewählt habe? Ich weiß nicht, ob wir die gleichmäßige Verteilung über Multinomial als Paar verwenden können.

bayesian dirichlet-distribution conjugate-prior

— ColinBinWang
quelle

5

Die Gleichverteilung ist ein Sonderfall der Dirichletverteilung.

— Stumpy Joe Pete

60

Die Dirichlet-Verteilung ist ein Konjugat vor der Multinomialverteilung. Dies bedeutet, dass, wenn die vorherige Verteilung der Multinomialparameter Dirichlet ist, die hintere Verteilung auch eine Dirichlet-Verteilung ist (mit anderen Parametern als die der vorherigen). Dies hat den Vorteil, dass (a) die posteriore Verteilung leicht zu berechnen ist und (b) in gewissem Sinne quantifiziert werden kann, wie sehr sich unsere Überzeugungen nach dem Sammeln der Daten geändert haben.

Es kann mit Sicherheit diskutiert werden, ob dies gute Gründe für die Auswahl eines bestimmten Prior sind, da diese Kriterien nicht mit tatsächlichen früheren Überzeugungen zusammenhängen. Dennoch sind konjugierte Priors beliebt, da sie aus den oben genannten Gründen häufig relativ flexibel und bequem zu verwenden sind .

Für den Spezialfall der Multinomialverteilung sei der Vektor der Multinomialparameter (dh die Wahrscheinlichkeiten für die verschiedenen Kategorien). Wenn vor dem Sammeln der Daten Beobachtungen in den verschiedenen Kategorien gegeben haben, $(p_1,\ldots,p_k)$

(p_{1}, \dots, p_{k}) \sim Dirichlet (α_{1}, \dots, α_{k})

$(p_1,\ldots,p_k)\sim \mbox{Dirichlet}(\alpha_1,\ldots,\alpha_k)$

(x_{1}, \dots, x_{k})

$(x_1,\ldots,x_k)$

(p_{1}, \dots, p_{k}) | (x_{1}, \dots, x_{k}) \sim Dirichlet (α_{1} + x_{1}, \dots, α_{k} + x_{k}) .

$(p_1,\ldots,p_k)\Big|(x_1,\ldots,x_k)\sim \mbox{Dirichlet}(\alpha_1+x_1,\ldots,\alpha_k+x_k).$

Die Gleichverteilung ist eigentlich ein Sonderfall der Dirichlet-Verteilung, der dem Fall . So ist der am wenigsten informative Jeffreys vor , für den . Die Tatsache, dass die Dirichlet-Klasse diese natürlichen "nicht informativen" Prioritäten enthält, ist ein weiterer Grund für die Verwendung. $\alpha_1=\alpha_2=\cdots=\alpha_k=1$ $\alpha_1=\cdots=\alpha_k=1/2$

— MånsT
quelle

Deshalb wählen wir die Dirichlet-Verteilung für diese Vorteile.

— ColinBinWang

1

+1: Möglicherweise möchten Sie explizit sagen, dass die Wahrscheinlichkeit notwendigerweise Dirichlet ist, weshalb die hintere Verteilung einfach zu berechnen ist.

— Neil G

18

Anstatt der Antwort von Måns T zu widersprechen, weise ich lediglich darauf hin, dass es in der Bayes'schen Modellierung kein "Prior" gibt! Die Dirichlet-Verteilung ist aufgrund von (a) Konjugation, (b) Berechnung und (c) Verbindung mit nichtparametrischen Statistiken eine bequeme Wahl (da dies die diskretisierte Version des Dirichlet-Prozesses ist).

(I) Was auch immer Sie zuvor die Gewichte des Multinomials angegeben haben, ist eine legitime Antwort auf der subjektiven Bayes-Ebene, und (ii) wenn vorherige Informationen verfügbar sind, gibt es keinen Grund, warum dies zu einer Dirichlet-Verteilung vereinfacht wird. Es ist auch zu beachten, dass Mischungen und Windungen von Dirichlet-Verteilungen als Vorläufer verwendet werden können.

— Xi'an
quelle