Das Mittelpunktmaß ist eine Mischungsverteilung der beiden multivariaten Normalen, hat also nicht die von Ihnen angegebene Form im ursprünglichen Beitrag. Sei die Wahrscheinlichkeitsdichtefunktion eines Zufallsvektors und das PDF von . Dann ist das PDF des Mittelpunktmaßes
MN ( μ p , Σ p ) φ q ( x ) N ( μ q , Σ q ) φ m ( x ) = 1φp(x)N(μp,Σp)φq(x)N(μq,Σq)
φm(x)=12φp(x)+12φq(x).
Die Jensen-Shannon-Divergenz ist
wobei die (Differential-) Entropie bezeichnet, die dem Maß .h ( P ) P.
JSD=12(KL(P∥M)+KL(Q∥M))=h(M)−12(h(P)+h(Q)),
h(P)P
Daher reduziert sich Ihre Berechnung auf die Berechnung der Differentialentropien. Für das multivariate Normal lautet die Antwort bekanntermaßen
und der Beweis kann in einer beliebigen Anzahl von Quellen gefunden werden, z. B. Cover und Thomas (1991), S. 230-231. Es ist darauf hinzuweisen, dass die Entropie einer multivariaten Normalen in Bezug auf den Mittelwert unveränderlich ist, wie der obige Ausdruck zeigt. Dies überträgt sich jedoch fast sicher nicht auf den Fall einer Mischung von Normalen. (Denken Sie daran, eine breite Normalen zu wählen, die bei Null zentriert ist, und eine andere konzentrierte Normalen, bei denen letztere weit vom Ursprung entfernt ist.)1N(μ,Σ)
12log2((2πe)n|Σ|)
Für den Mittelpunkt scheinen die Dinge komplizierter zu sein. Ich weiß, dass es keinen Ausdruck in geschlossener Form für die Differentialentropie . Die Suche bei Google führt zu einigen potenziellen Treffern, aber die Top-Treffer scheinen im allgemeinen Fall keine geschlossenen Formulare zu ergeben. Möglicherweise können Sie diese Menge in irgendeiner Weise nicht annähern.h(M)
Beachten Sie auch, dass das Papier, auf das Sie verweisen, die Behandlung nicht nur auf diskrete Verteilungen beschränkt. Sie behandeln einen Fall allgemein genug, dass Ihr Problem in ihren Rahmen fällt. Siehe die Mitte der zweiten Spalte auf Seite 1859. Hier wird auch gezeigt, dass die Divergenz begrenzt ist. Dies gilt für den Fall von zwei allgemeinen Maßnahmen und ist nicht auf den Fall von zwei diskreten Verteilungen beschränkt.
Die Jensen-Shannon-Divergenz ist in letzter Zeit einige Male in anderen Fragen auf dieser Website aufgetaucht. Sehen Sie hier und hier .
Nachtrag : Beachten Sie, dass eine Mischung von Normalen nicht mit einer linearen Kombination von Normalen identisch ist. Der einfachste Weg, dies zu sehen, besteht darin, den eindimensionalen Fall zu betrachten. Sei und und sei unabhängig voneinander. Dann hat eine Mischung der beiden Normalen unter Verwendung von Gewichten für die Verteilung
X 2 ≤ N ( μ , 1 ) ( α , 1 - α ) α ≤ ( 0 , 1 ) ≤ m ( x ) = α ≤ 1X1∼N(−μ,1)X2∼N(μ,1)(α,1−α)α∈(0,1)
φm(x)=α⋅12π−−√e−(x+μ)22+(1−α)⋅12π−−√e−(x−μ)22.
Die Verteilung einer linearen Kombination von und Verwendung der gleichen Gewichte wie zuvor ist über die stabile Eigenschaft der Normalverteilung
wobei .X 2 φ ℓ ( x ) = 1X1X2σ 2 = α 2 + ( 1 - α ) 2
φℓ(x)=12πσ2−−−−√e−(x−(1−2α)μ)22σ2,
σ2=α2+(1−α)2
Diese beiden Verteilungen sind sehr unterschiedlich, obwohl sie den gleichen Mittelwert haben. Dies ist kein Zufall und ergibt sich aus der Linearität der Erwartung.
Stellen Sie sich vor, Sie müssten sich an eine statistische Beraterin wenden, um die Mischungsverteilung zu verstehen, damit sie für Sie Werte aus dieser Verteilung erstellen kann. Sie hat eine Realisierung von in einer Handfläche und eine Realisierung von in der anderen Handfläche (obwohl Sie nicht wissen, in welcher der beiden Palmen sich jeweils befindet). Jetzt wirft ihre Assistentin eine voreingenommene Münze mit der Wahrscheinlichkeit außer Sichtweite von Ihnen und kommt dann und flüstert dem Statistiker das Ergebnis ins Ohr. Sie öffnet eine ihrer Handflächen und zeigt Ihnen die Erkenntnis, sagt Ihnen aber nicht das Ergebnis des Münzwurfs. Dieser Prozess erzeugt die Mischungsverteilung.X 2 αX1X2α
Andererseits kann die lineare Kombination im gleichen Kontext verstanden werden. Der statistische Berater nimmt lediglich beide Realisierungen, multipliziert die erste mit und die zweite mit , addiert das Ergebnis und zeigt es Ihnen.( 1 - α )α(1−α)