Was genau ist das Alpha in der Dirichlet-Verteilung?


26

Ich bin ziemlich neu in der Bayes'schen Statistik und bin auf ein korrigiertes Korrelationsmaß gestoßen , SparCC , das den Dirichlet-Prozess im Backend seines Algorithmus verwendet. Ich habe versucht, den Algorithmus Schritt für Schritt durchzugehen, um wirklich zu verstehen, was passiert, bin mir aber nicht sicher, was der alphaVektorparameter in einer Dirichlet-Verteilung genau bewirkt und wie er den alphaVektorparameter normalisiert .

Für die Implementierung wird PythonFolgendes verwendet NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

Die Dokumente sagen:

alpha: array Parameter der Verteilung (k Dimension für Stichprobe der Dimension k).

Meine Fragen:

  1. Wie wirkt sich das alphasauf die Verteilung aus ?;

  2. Wie alphasnormalisiert sich das Sein ?; und

  3. Was passiert, wenn die alphasZahlen keine ganzen Zahlen sind?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

Bildbeschreibung hier eingeben


6
Haben Sie Probleme mit dem Wikipedia-Eintrag in dieser Distribution ?
Xi'an

2
Entschuldigung, ich glaube nicht, dass ich es richtig formuliert habe. Ich verstehe, was eine Wahrscheinlichkeitsverteilung / pdf / pmf ist, war aber verwirrt darüber, wie die Normalisierung ablief. Aus der Wikipedia geht hervor, dass die Normalisierung über die Gammafunktionen nach dem . Ich habe gehört, dass es sich um eine Verteilung über Verteilungen handelt, und es ist schwer zu erkennen, dass dies aus den Gleichungen auf Wikipedia hervorgeht. xiα1
O.rka

1
Wenn Sie die Alphas normalisieren, erhalten Sie den Mittelwert der Verteilung. Wenn Sie die Verteilung normalisieren, stellen Sie sicher, dass ihr Integral über ihrer Unterstützung gleich 1 ist und dass es sich somit um eine gültige Wahrscheinlichkeitsverteilung handelt.
Eskapp

1
Die Dirichlet-Verteilung ist eine Verteilung über den Simplex, daher eine Verteilung über Verteilungen mit endlicher Unterstützung. Wenn Sie eine Verteilung über kontinuierliche Verteilungen anstreben, sollten Sie sich den Dirichlet-Prozess ansehen.
Xi'an

Antworten:


66

Die Dirichlet-Verteilung ist eine multivariate Wahrscheinlichkeitsverteilung, die Variablen , so dass jedes und , das durch parametrisiert wird ein Vektor von Parametern mit positivem Wert . Die Parameter müssen keine ganzen Zahlen sein, sondern müssen nur positive reelle Zahlen sein. Sie sind in keiner Weise "normalisiert", sondern Parameter dieser Verteilung.X 1 , , X k x i( 0 , 1 ) N i = 1 x i = 1 α = ( α 1 , , α k )k2X1,,Xkxi(0,1)i=1Nxi=1α=(α1,,αk)

Die Dirichlet-Verteilung ist eine Verallgemeinerung der Beta-Verteilung in mehrere Dimensionen, sodass Sie zunächst etwas über die Beta-Verteilung lernen können. Beta ist eine univariate Verteilung einer Zufallsvariablen , die durch die Parameter und parametrisiert wird . Die gute Intuition kommt daher, wenn Sie sich daran erinnern, dass es sich um ein konjugiertes Prior für die Binomialverteilung handelt und wenn wir für den Wahrscheinlichkeitsparameter der Binomialverteilung ein Beta-Prior annehmen, das durch und parametrisiert ist , dann ist auch die posteriore Verteilung von a Betaverteilung parametrisiert vonα β α β p p α ' = α + Anzahl der Erfolge β ' = β + Anzahl der Ausfälle α βX(0,1)αβαβppα=α+number of successes und . Sie können sich also und als Pseudocounts (sie müssen keine ganzen Zahlen sein) von Erfolgen und Misserfolgen vorstellen (überprüfen Sie auch diesen Thread ).β=β+number of failuresαβ

Bei der Dirichlet-Verteilung handelt es sich um ein Konjugat vor der Multinomialverteilung . Wenn wir im Falle der Binomialverteilung daran denken können, weiße und schwarze Kugeln mit Ersatz aus der Urne zu zeichnen, dann zeichnen wir im Falle der Multinomialverteilung mit Ersatz Kugeln, die in Farben erscheinen, wobei jede der Farben der Bälle können mit den Wahrscheinlichkeiten . Das Dirichlet - Verteilung ist ein Konjugat vor für Wahrscheinlichkeiten und Parameter können wie folgt beschrieben werden pseudocounts von Kugeln jeder Farbe angenommen Apriorik p 1 , ... , p k p 1 , ... , p k α 1 , ... , α k α 1 , ... , α k α 1 + n 1 , ... , α k + n kNkp1,,pkp1,,pkα1,,αk(aber Sie sollten auch über die Fallstricke solcher Überlegungen lesen ). Im Dirichlet-Multinomial-Modell sie aktualisiert, indem sie mit den beobachteten Zählwerten in jeder Kategorie summiert werden: ähnlich wie im Fall eines Beta-Binomial-Modells.α1,,αkα1+n1,,αk+nk

Der höhere Wert von , das größere "Gewicht" von und der größere Betrag der gesamten "Masse" werden ihm zugewiesen (man daran, dass es insgesamt ). Wenn alle gleich sind, ist die Verteilung symmetrisch. Wenn , kann dies als Anti-Gewicht betrachtet werden, das zu Extremen hin wegdrückt , während es zu einem zentralen Wert hin anzieht, wenn es hoch ist (zentral in dem Sinne, dass alle Punkte um ihn herum konzentriert sind, nicht in der spüren, dass es symmetrisch zentral ist). Wenn , sind die Punkte gleichmäßig verteilt.X i x 1 + + x k = 1 α i α i < 1 x i x i α 1 = = α k = 1αiXix1++xk=1αiαi<1xixiα1==αk=1

Dies ist in den folgenden Diagrammen zu sehen, in denen Sie trivariate Dirichlet-Verteilungen sehen können (leider können wir nur vernünftige Diagramme mit bis zu drei Dimensionen erstellen), die durch (a) , (b) , (c) , (d) .α 1 = α 2 = α 3 = 10 α 1 = 1 , α 2 = 10 , α 3 = 5 α 1 = α 2 = α 3 = 0,2α1=α2=α3=1α1=α2=α3=10α1=1,α2=10,α3=5α1=α2=α3=0.2

Vier verschiedene Proben aus Dirichlet-Verteilungen

Die Dirichlet-Verteilung wird manchmal als "Verteilung über Verteilungen" bezeichnet , da sie als Verteilung der Wahrscheinlichkeiten selbst gedacht werden kann. Beachten Sie, dass , da jeder und , dann ‚s sind , die mit den ersten und zweiten Axiome der Wahrscheinlichkeit . Sie können die Dirichlet-Verteilung also als Wahrscheinlichkeitsverteilung für diskrete Ereignisse verwenden, die durch Verteilungen wie kategorial oder multinomial beschrieben werden . Es ist nichtk i = 1 x i = 1 x i kxi(0,1)i=1kxi=1xiEs ist wahr, dass es sich um eine Verteilung über beliebige Verteilungen handelt. Beispielsweise bezieht es sich nicht auf Wahrscheinlichkeiten kontinuierlicher Zufallsvariablen oder sogar auf einige diskrete Variablen (z. B. beschreibt eine verteilte Poisson-Zufallsvariable Wahrscheinlichkeiten für die Beobachtung von Werten, bei denen es sich um beliebige natürliche Zahlen handelt, um a zu verwenden Dirichlet-Verteilung über ihre Wahrscheinlichkeiten, benötigen Sie eine unendliche Anzahl von Zufallsvariablen ).k


2
Unglaubliche Erklärung
O.rka

14

Haftungsausschluss: Ich habe noch nie mit dieser Distribution gearbeitet. Diese Antwort basiert auf diesem Wikipedia-Artikel und meiner Interpretation.


Die Dirichlet-Verteilung ist eine multivariate Wahrscheinlichkeitsverteilung mit ähnlichen Eigenschaften wie die Beta-Verteilung.

Das PDF ist wie folgt definiert:

{x1,,xK}1B(α)i=1Kxiαi1

mit , und .K2xi(0,1)i=1Kxi=1

Wenn wir uns die eng verwandte Beta-Distribution ansehen:

{x1,x2(=1x1)}1B(α,β)x1α1x2β1

wir können sehen, dass diese beiden Verteilungen gleich sind, wenn . Lasst uns also zuerst unsere Interpretation darauf stützen und dann auf verallgemeinern .K=2K>2


In der Bayes'schen Statistik wird die Beta-Verteilung als konjugierter Prior für Binomialparameter verwendet (siehe Beta-Verteilung ). Der Prior kann als Vorkenntnisse zu und (oder in Übereinstimmung mit der Dirichlet-Verteilung und ) definiert werden. Wenn einig binomische Studie hat dann Erfolge und Ausfälle, ist die a posteriori Verteilung folgt dann als: und . (Ich werde das nicht herausfinden, da dies wahrscheinlich eines der ersten Dinge ist, die Sie mit der Bayes'schen Statistik lernen).αβα1α2ABα1,pos=α1+Aα2,pos=α2+B

Die Beta-Verteilung repräsentiert dann eine posteriore Verteilung auf undx1x2(=1x1)AB


K=2KK=2Kxi

αiα1α2xi

Kommen wir nun zu Ihren Fragen:

Wie wirkt sich das alphasauf die Distribution aus?

xi(0,1)i=1Kxi=1αiKi=1Kαixioder die Wahrscheinlichkeiten für jedes der Ergebnisse. Dies bedeutet, dass die Dichte konzentrierter ist.

Wie alphasnormalisiert man sich?

Die Normalisierung der Verteilung (Sicherstellen, dass das Integral gleich 1 ist) erfolgt durch den Term :B(α)

B(α)=i=1KΓ(αi)Γ(i=1Kαi)

Nochmals, wenn wir uns den Fall ansehen, können wir sehen, dass der Normalisierungsfaktor derselbe ist wie in der Beta-Verteilung, die das Folgende verwendete:K=2

B(α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)

Dies erstreckt sich auf

B(α)=Γ(α1)Γ(α2)Γ(αK)Γ(α1+α2++αK)

Was passiert, wenn die Alphas keine ganzen Zahlen sind?

αi>1αi<1xiKK2


1
Danke dafür. Ihre Erklärung war super nützlich. Ich wünschte, ich hätte beide als korrekt markieren können.
O.rka
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.