Jensen-Shannon-Divergenz für bivariate Normalverteilungen

8

Angesichts zweier bivariater Normalverteilungen und versuche ich, die Jensen-Shannon-Divergenz zwischen ihnen zu berechnen. definiert (für den diskreten Fall) als: wobei die Kullback-Leibler-Divergenz ist , und Ich habe den Weg gefunden, anhand der Verteilungsparameter und damit zu berechnen . $P \equiv \mathcal{N}(\mu_p, \Sigma_p)$ $Q \equiv \mathcal{N}(\mu_q, \Sigma_q)$ $JSD(P\|Q) = \frac{1}{2} (KLD(P\|M)+ KLD(Q\|M))$ $KLD$ $M=\frac{1}{2}(P+Q)$
$KLD$ $JSD$

Meine Zweifel sind:

Um zu berechnen $M$ , habe ich gerade $M \equiv \mathcal{N}(\frac{1}{2}(\mu_p + \mu_q), \frac{1}{2}(\Sigma_p + \Sigma_q))$ . Ist das richtig?
Ich habe in [ 1 ] gelesen, dass die $JSD$ begrenzt ist, aber das scheint nicht zu stimmen, wenn ich sie wie oben für Normalverteilungen beschrieben berechne. Bedeutet das, dass ich es falsch berechne, eine Annahme verletze oder etwas anderes, das ich nicht verstehe?

normal-distribution distance-functions information-theory

— jorges
quelle

8

Das Mittelpunktmaß ist eine Mischungsverteilung der beiden multivariaten Normalen, hat also nicht die von Ihnen angegebene Form im ursprünglichen Beitrag. Sei die Wahrscheinlichkeitsdichtefunktion eines Zufallsvektors und das PDF von . Dann ist das PDF des Mittelpunktmaßes $\newcommand{\bx}{\mathbf{x}} \newcommand{\KL}{\mathrm{KL}}M$ $\varphi_p(\bx)$ $\mathcal{N}(\mu_p, \Sigma_p)$ $\varphi_q(\bx)$ $\mathcal{N}(\mu_q, \Sigma_q)$

φ_{m} (x) = \frac{1}{2} φ_{p} (x) + \frac{1}{2} φ_{q} (x) .

$\varphi_m(\bx) = \frac{1}{2} \varphi_p(\bx) + \frac{1}{2} \varphi_q(\bx) \> .$

Die Jensen-Shannon-Divergenz ist wobei die (Differential-) Entropie bezeichnet, die dem Maß .

J S D = \frac{1}{2} (K L (P ‖ M) + K L (Q ‖ M)) = h (M) - \frac{1}{2} (h (P) + h (Q)),

$\mathrm{JSD} = \frac{1}{2} (\KL(P\,\|M)+ \KL(Q\|M)) = h(M) - \frac{1}{2} (h(P) + h(Q)) \>,$

h (P)

$h(P)$

P

$P$

Daher reduziert sich Ihre Berechnung auf die Berechnung der Differentialentropien. Für das multivariate Normal lautet die Antwort bekanntermaßen und der Beweis kann in einer beliebigen Anzahl von Quellen gefunden werden, z. B. Cover und Thomas (1991), S. 230-231. Es ist darauf hinzuweisen, dass die Entropie einer multivariaten Normalen in Bezug auf den Mittelwert unveränderlich ist, wie der obige Ausdruck zeigt. Dies überträgt sich jedoch fast sicher nicht auf den Fall einer Mischung von Normalen. (Denken Sie daran, eine breite Normalen zu wählen, die bei Null zentriert ist, und eine andere konzentrierte Normalen, bei denen letztere weit vom Ursprung entfernt ist.) $\mathcal{N}(\mu, \Sigma)$

\frac{1}{2} \log_{2} ((2 π e)^{n} | Σ |)

$\frac{1}{2} \log_2\big((2\pi e)^n |\Sigma|\big)$

Für den Mittelpunkt scheinen die Dinge komplizierter zu sein. Ich weiß, dass es keinen Ausdruck in geschlossener Form für die Differentialentropie . Die Suche bei Google führt zu einigen potenziellen Treffern, aber die Top-Treffer scheinen im allgemeinen Fall keine geschlossenen Formulare zu ergeben. Möglicherweise können Sie diese Menge in irgendeiner Weise nicht annähern. $h(M)$

Beachten Sie auch, dass das Papier, auf das Sie verweisen, die Behandlung nicht nur auf diskrete Verteilungen beschränkt. Sie behandeln einen Fall allgemein genug, dass Ihr Problem in ihren Rahmen fällt. Siehe die Mitte der zweiten Spalte auf Seite 1859. Hier wird auch gezeigt, dass die Divergenz begrenzt ist. Dies gilt für den Fall von zwei allgemeinen Maßnahmen und ist nicht auf den Fall von zwei diskreten Verteilungen beschränkt.

Die Jensen-Shannon-Divergenz ist in letzter Zeit einige Male in anderen Fragen auf dieser Website aufgetaucht. Sehen Sie hier und hier .

Nachtrag : Beachten Sie, dass eine Mischung von Normalen nicht mit einer linearen Kombination von Normalen identisch ist. Der einfachste Weg, dies zu sehen, besteht darin, den eindimensionalen Fall zu betrachten. Sei und und sei unabhängig voneinander. Dann hat eine Mischung der beiden Normalen unter Verwendung von Gewichten für die Verteilung $X_1 \sim \mathcal{N}(-\mu, 1)$ $X_2 \sim \mathcal{N}(\mu, 1)$ $(\alpha, 1-\alpha)$ $\alpha \in (0,1)$

φ_{m} (x) = α \cdot \frac{1}{\sqrt{2 π}} e^{- \frac{(x + μ)^{2}}{2}} + (1 - α) \cdot \frac{1}{\sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2}} .

$\varphi_m(x) = \alpha \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x+\mu)^2}{2}} + (1-\alpha) \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2}} \> .$

Die Verteilung einer linearen Kombination von und Verwendung der gleichen Gewichte wie zuvor ist über die stabile Eigenschaft der Normalverteilung wobei . $X_1$ $X_2$

φ_{ℓ} (x) = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x - (1 - 2 α) μ)^{2}}{2 σ^{2}}},

$\varphi_{\ell}(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-(1-2\alpha)\mu)^2}{2\sigma^2}} \>,$

σ^{2} = α^{2} + (1 - α)^{2}

$\sigma^2 = \alpha^2 + (1-\alpha)^2$

Diese beiden Verteilungen sind sehr unterschiedlich, obwohl sie den gleichen Mittelwert haben. Dies ist kein Zufall und ergibt sich aus der Linearität der Erwartung.

Stellen Sie sich vor, Sie müssten sich an eine statistische Beraterin wenden, um die Mischungsverteilung zu verstehen, damit sie für Sie Werte aus dieser Verteilung erstellen kann. Sie hat eine Realisierung von in einer Handfläche und eine Realisierung von in der anderen Handfläche (obwohl Sie nicht wissen, in welcher der beiden Palmen sich jeweils befindet). Jetzt wirft ihre Assistentin eine voreingenommene Münze mit der Wahrscheinlichkeit außer Sichtweite von Ihnen und kommt dann und flüstert dem Statistiker das Ergebnis ins Ohr. Sie öffnet eine ihrer Handflächen und zeigt Ihnen die Erkenntnis, sagt Ihnen aber nicht das Ergebnis des Münzwurfs. Dieser Prozess erzeugt die Mischungsverteilung. $X_1$ $X_2$ $\alpha$

Andererseits kann die lineare Kombination im gleichen Kontext verstanden werden. Der statistische Berater nimmt lediglich beide Realisierungen, multipliziert die erste mit und die zweite mit , addiert das Ergebnis und zeigt es Ihnen. $\alpha$ $(1-\alpha)$

— Kardinal
quelle

Danke für deine Antwort. Mein Problem liegt also in (wie ich berechnet habe) der Mittelpunktverteilung. Bitte entschuldigen Sie meine Unwissenheit, wenn ich eine offensichtliche Frage stelle, aber wie unterscheidet sich die Mittelpunktverteilung von der Summe normalverteilter Zufallsvariablen ? Liegt es daran, dass wir uns in einem Bi-Variate-Fall befinden?

— Jorges

2

@jorges Die Summe ist normal und daher symmetrisch zu einem einzelnen Modus. Wenn die beiden Mittel ausreichend weit voneinander entfernt sind (im Vergleich zu ihren SDs), ist die Mischungsverteilung bimodal . In keinem Fall ist die Mischung normal, außer in den entarteten Fällen (gleiche Mittelwerte und gleiche SDs). Dies geht auch aus der Formel für : Dieser Durchschnitt der Exponentiale kann nicht als Exponential einer quadratischen Form geschrieben werden.

φ_{m}

$\varphi_m$

— whuber

@whuber und Kardinal: Während ich intuitiv verstehe, was Sie sagen, habe ich anscheinend ein ernstes Problem mit Konzepten. Ich bin nicht wirklich ein Statistiker, und ich denke, ich mische "Summe der Zufallsvariablen" mit "Mischungsverteilung". Ich bestreite nicht wirklich, was Kardinal und Sie geantwortet haben, sondern versuche, den Unterschied zu verstehen und wann ich welche verwenden soll, da ich an anderer Stelle ähnliche Fehler machen könnte. Ich gehe zurück, um etwas zu lesen und zu sehen, ob ich mich aufklären kann. Danke für deine Antworten.

— Jorges

2

Kardinals Antwort ist richtig. Sie versuchen, eine geschlossene Lösung für die Jensen-Shannon-Divergenz zweier Gaußscher zu finden. Es gibt keine solche Lösung.

Sie können Jensen-Shannon jedoch mit Monte-Carlo-Stichproben mit beliebiger Genauigkeit berechnen. Was Sie benötigen, ist eine Möglichkeit zur Berechnung der und im weiteren Sinne der . Die Kullback-Leibler-Divergenz ist definiert als: $KLD(P|M)$ $KLD(Q|M)$

K L D (P | M) = \int P (x) l o g (\frac{P (x)}{M (x)}) d x

$KLD(P|M) = \int P(x) log\big(\frac{P(x)}{M(x)}\big) dx$

Die Monte-Carlo-Näherung hierfür lautet:

K L D_{a p p r o x} (P | M) = \frac{1}{n} \sum_{i}^{n} l o g (\frac{P (x_{i})}{M (x_{i})})

$KLD_{approx}(P|M) = \frac{1}{n} \sum^n_i log\big(\frac{P(x_i)}{M(x_i)}\big)$

wo die aus abgetastet wurden , was einfach ist, da es in Ihrem Fall ein Gaußscher ist. Als ist . kann berechnet werden als . $x_i$ $P(x)$ $n \to \infty$ $KLD_{approx}(P|M) \to KLD(P|M)$ $M(x_i)$ $M(x_i) = \frac{1}{2}P(x_i) + \frac{1}{2}Q(x_i)$

— FrankD
quelle

HI @FrankD - Ich habe versucht, Ihren Vorschlag hier umzusetzen : stats.stackexchange.com/questions/345915/… obwohl ich nicht denke, dass es genau das ist, was Sie gemeint haben. Zeiger sind herzlich willkommen.

— Astrid