Was genau ist das Alpha in der Dirichlet-Verteilung?

Ich bin ziemlich neu in der Bayes'schen Statistik und bin auf ein korrigiertes Korrelationsmaß gestoßen , SparCC , das den Dirichlet-Prozess im Backend seines Algorithmus verwendet. Ich habe versucht, den Algorithmus Schritt für Schritt durchzugehen, um wirklich zu verstehen, was passiert, bin mir aber nicht sicher, was der alphaVektorparameter in einer Dirichlet-Verteilung genau bewirkt und wie er den alphaVektorparameter normalisiert .

Für die Implementierung wird PythonFolgendes verwendet NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

Die Dokumente sagen:

alpha: array Parameter der Verteilung (k Dimension für Stichprobe der Dimension k).

Meine Fragen:

Wie wirkt sich das alphasauf die Verteilung aus ?;
Wie alphasnormalisiert sich das Sein ?; und
Was passiert, wenn die alphasZahlen keine ganzen Zahlen sind?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

distributions bayesian dirichlet-distribution

— O.rka
quelle

Haben Sie Probleme mit dem Wikipedia-Eintrag in dieser Distribution ?

— Xi'an

Entschuldigung, ich glaube nicht, dass ich es richtig formuliert habe. Ich verstehe, was eine Wahrscheinlichkeitsverteilung / pdf / pmf ist, war aber verwirrt darüber, wie die Normalisierung ablief. Aus der Wikipedia geht hervor, dass die Normalisierung über die Gammafunktionen nach dem . Ich habe gehört, dass es sich um eine Verteilung über Verteilungen handelt, und es ist schwer zu erkennen, dass dies aus den Gleichungen auf Wikipedia hervorgeht.

\prod {x_{i}}^{α - 1}

${\prod}{x_i}^{\alpha - 1}$

— O.rka

Wenn Sie die Alphas normalisieren, erhalten Sie den Mittelwert der Verteilung. Wenn Sie die Verteilung normalisieren, stellen Sie sicher, dass ihr Integral über ihrer Unterstützung gleich 1 ist und dass es sich somit um eine gültige Wahrscheinlichkeitsverteilung handelt.

— Eskapp

Die Dirichlet-Verteilung ist eine Verteilung über den Simplex, daher eine Verteilung über Verteilungen mit endlicher Unterstützung. Wenn Sie eine Verteilung über kontinuierliche Verteilungen anstreben, sollten Sie sich den Dirichlet-Prozess ansehen.

— Xi'an

Antworten:

Die Dirichlet-Verteilung ist eine multivariate Wahrscheinlichkeitsverteilung, die Variablen , so dass jedes und , das durch parametrisiert wird ein Vektor von Parametern mit positivem Wert . Die Parameter müssen keine ganzen Zahlen sein, sondern müssen nur positive reelle Zahlen sein. Sie sind in keiner Weise "normalisiert", sondern Parameter dieser Verteilung. $k\ge2$ $X_1,\dots,X_k$ $x_i \in (0,1)$ $\sum_{i=1}^N x_i = 1$ $\boldsymbol{\alpha} = (\alpha_1,\dots,\alpha_k)$

Die Dirichlet-Verteilung ist eine Verallgemeinerung der Beta-Verteilung in mehrere Dimensionen, sodass Sie zunächst etwas über die Beta-Verteilung lernen können. Beta ist eine univariate Verteilung einer Zufallsvariablen , die durch die Parameter und parametrisiert wird . Die gute Intuition kommt daher, wenn Sie sich daran erinnern, dass es sich um ein konjugiertes Prior für die Binomialverteilung handelt und wenn wir für den Wahrscheinlichkeitsparameter der Binomialverteilung ein Beta-Prior annehmen, das durch und parametrisiert ist , dann ist auch die posteriore Verteilung von a Betaverteilung parametrisiert von $X \in (0,1)$ $\alpha$ $\beta$ $\alpha$ $\beta$ $p$ $p$ $\alpha' = \alpha + \text{number of successes}$ und . Sie können sich also und als Pseudocounts (sie müssen keine ganzen Zahlen sein) von Erfolgen und Misserfolgen vorstellen (überprüfen Sie auch diesen Thread ). $\beta' = \beta + \text{number of failures}$ $\alpha$ $\beta$

Bei der Dirichlet-Verteilung handelt es sich um ein Konjugat vor der Multinomialverteilung . Wenn wir im Falle der Binomialverteilung daran denken können, weiße und schwarze Kugeln mit Ersatz aus der Urne zu zeichnen, dann zeichnen wir im Falle der Multinomialverteilung mit Ersatz Kugeln, die in Farben erscheinen, wobei jede der Farben der Bälle können mit den Wahrscheinlichkeiten . Das Dirichlet - Verteilung ist ein Konjugat vor für Wahrscheinlichkeiten und Parameter können wie folgt beschrieben werden pseudocounts von Kugeln jeder Farbe angenommen Apriori $N$ $k$ $p_1,\dots,p_k$ $p_1,\dots,p_k$ $\alpha_1,\dots,\alpha_k$ (aber Sie sollten auch über die Fallstricke solcher Überlegungen lesen ). Im Dirichlet-Multinomial-Modell sie aktualisiert, indem sie mit den beobachteten Zählwerten in jeder Kategorie summiert werden: ähnlich wie im Fall eines Beta-Binomial-Modells. $\alpha_1,\dots,\alpha_k$ $\alpha_1+n_1,\dots,\alpha_k+n_k$

Der höhere Wert von , das größere "Gewicht" von und der größere Betrag der gesamten "Masse" werden ihm zugewiesen (man daran, dass es insgesamt ). Wenn alle gleich sind, ist die Verteilung symmetrisch. Wenn , kann dies als Anti-Gewicht betrachtet werden, das zu Extremen hin wegdrückt , während es zu einem zentralen Wert hin anzieht, wenn es hoch ist (zentral in dem Sinne, dass alle Punkte um ihn herum konzentriert sind, nicht in der spüren, dass es symmetrisch zentral ist). Wenn , sind die Punkte gleichmäßig verteilt. $\alpha_i$ $X_i$ $x_1+\dots+x_k=1$ $\alpha_i$ $\alpha_i < 1$ $x_i$ $x_i$ $\alpha_1 = \dots = \alpha_k = 1$

Dies ist in den folgenden Diagrammen zu sehen, in denen Sie trivariate Dirichlet-Verteilungen sehen können (leider können wir nur vernünftige Diagramme mit bis zu drei Dimensionen erstellen), die durch (a) , (b) , (c) , (d) . $\alpha_1 = \alpha_2 = \alpha_3 = 1$ $\alpha_1 = \alpha_2 = \alpha_3 = 10$ $\alpha_1 = 1, \alpha_2 = 10, \alpha_3 = 5$ $\alpha_1 = \alpha_2 = \alpha_3 = 0.2$

Die Dirichlet-Verteilung wird manchmal als "Verteilung über Verteilungen" bezeichnet , da sie als Verteilung der Wahrscheinlichkeiten selbst gedacht werden kann. Beachten Sie, dass , da jeder und , dann ‚s sind , die mit den ersten und zweiten Axiome der Wahrscheinlichkeit . Sie können die Dirichlet-Verteilung also als Wahrscheinlichkeitsverteilung für diskrete Ereignisse verwenden, die durch Verteilungen wie kategorial oder multinomial beschrieben werden . Es ist nicht $x_i \in (0,1)$ $\sum_{i=1}^k x_i = 1$ $x_i$ Es ist wahr, dass es sich um eine Verteilung über beliebige Verteilungen handelt. Beispielsweise bezieht es sich nicht auf Wahrscheinlichkeiten kontinuierlicher Zufallsvariablen oder sogar auf einige diskrete Variablen (z. B. beschreibt eine verteilte Poisson-Zufallsvariable Wahrscheinlichkeiten für die Beobachtung von Werten, bei denen es sich um beliebige natürliche Zahlen handelt, um a zu verwenden Dirichlet-Verteilung über ihre Wahrscheinlichkeiten, benötigen Sie eine unendliche Anzahl von Zufallsvariablen ). $k$

— Tim
quelle

Unglaubliche Erklärung

— O.rka

Haftungsausschluss: Ich habe noch nie mit dieser Distribution gearbeitet. Diese Antwort basiert auf diesem Wikipedia-Artikel und meiner Interpretation.

Die Dirichlet-Verteilung ist eine multivariate Wahrscheinlichkeitsverteilung mit ähnlichen Eigenschaften wie die Beta-Verteilung.

Das PDF ist wie folgt definiert:

{x_{1}, \dots, x_{K}} \sim \frac{1}{B (α)} \prod_{i = 1}^{K} x_{i}^{α_{i} - 1}

$\{x_1, \dots, x_K\} \sim\frac{1}{B(\boldsymbol{\alpha})}\prod_{i=1}^Kx_i^{\alpha_i - 1}$

mit , und . $K \geq 2$ $x_i \in (0,1)$ $\sum_{i=1}^Kx_i = 1$

Wenn wir uns die eng verwandte Beta-Distribution ansehen:

{x_{1}, x_{2} (= 1 - x_{1})} \sim \frac{1}{B (α, β)} x_{1}^{α - 1} x_{2}^{β - 1}

$\{x_1, x_2 (=1-x_1)\} \sim \frac{1}{B(\alpha,\beta)}x_1^{\alpha-1}x_2^{\beta-1}$

wir können sehen, dass diese beiden Verteilungen gleich sind, wenn . Lasst uns also zuerst unsere Interpretation darauf stützen und dann auf verallgemeinern . $K=2$ $K>2$

In der Bayes'schen Statistik wird die Beta-Verteilung als konjugierter Prior für Binomialparameter verwendet (siehe Beta-Verteilung ). Der Prior kann als Vorkenntnisse zu und (oder in Übereinstimmung mit der Dirichlet-Verteilung und ) definiert werden. Wenn einig binomische Studie hat dann Erfolge und Ausfälle, ist die a posteriori Verteilung folgt dann als: und . (Ich werde das nicht herausfinden, da dies wahrscheinlich eines der ersten Dinge ist, die Sie mit der Bayes'schen Statistik lernen). $\alpha$ $\beta$ $\alpha_1$ $\alpha_2$ $A$ $B$ $\alpha_{1,pos} = \alpha_1 + A$ $\alpha_{2,pos}=\alpha_2 + B$

Die Beta-Verteilung repräsentiert dann eine posteriore Verteilung auf und $x_1$ $x_2 (=1-x_1)$ $A$ $B$

$K=2$ $K$ $K=2$ $K$ $x_i$

$\alpha_i$ $\alpha_1$ $\alpha_2$ $x_i$

Kommen wir nun zu Ihren Fragen:

Wie wirkt sich das alphasauf die Distribution aus?

$x_i \in (0,1)$ $\sum_{i=1}^Kx_i = 1$ $\alpha_i$ $K$ $\sum_{i=1}^K\alpha_i$ $x_i$ oder die Wahrscheinlichkeiten für jedes der Ergebnisse. Dies bedeutet, dass die Dichte konzentrierter ist.

Wie alphasnormalisiert man sich?

Die Normalisierung der Verteilung (Sicherstellen, dass das Integral gleich 1 ist) erfolgt durch den Term : $B(\boldsymbol{\alpha})$

B (α) = \frac{\prod_{i = 1}^{K} Γ (α_{i})}{Γ (\sum_{i = 1}^{K} α_{i})}

$B(\boldsymbol{\alpha}) = \frac{\prod_{i=1}^K\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^K\alpha_i)}$

Nochmals, wenn wir uns den Fall ansehen, können wir sehen, dass der Normalisierungsfaktor derselbe ist wie in der Beta-Verteilung, die das Folgende verwendete: $K=2$

B (α_{1}, α_{2}) = \frac{Γ (α_{1}) Γ (α_{2})}{Γ (α_{1} + α_{2})}

$B(\alpha_1, \alpha_2) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+\alpha_2)}$

Dies erstreckt sich auf

B (α) = \frac{Γ (α_{1}) Γ (α_{2}) \dots Γ (α_{K})}{Γ (α_{1} + α_{2} + \dots + α_{K})}

$B(\boldsymbol{\alpha}) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_K)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_K)}$

Was passiert, wenn die Alphas keine ganzen Zahlen sind?

$\alpha_i>1$ $\alpha_i < 1$ $x_i$ $K$ $K\geq2$

— JAD
quelle

Danke dafür. Ihre Erklärung war super nützlich. Ich wünschte, ich hätte beide als korrekt markieren können.

— O.rka