Referenzen, die die Verwendung von Gaußschen Gemischen rechtfertigen


14

Gaußsche Mischungsmodelle (GMMs) sind ansprechend, weil sie sowohl analytisch als auch praktisch einfach zu handhaben sind und in der Lage sind, einige exotische Verteilungen ohne zu große Komplexität zu modellieren. Es gibt einige analytische Eigenschaften, die wir erwarten sollten und die im Allgemeinen nicht klar sind. Im Speziellen:

  • SnnPnP
    limninfP^SnD(P||P^)=0?
  • Angenommen , wir haben eine kontinuierliche Verteilung und wir haben eine gefunden -Komponente Gauß'schen Mischung , die nahe ist in Gesamtvariation: . Können wir in Bezug auf \ epsilon binden ?PP P δ ( P , P ) < ε D ( P | | P ) εNP^Pδ(P,P^)<εD(P||P^)ϵ
  • Wenn wir durch unabhängiges additives Rauschen beobachten wollen, (beide real, kontinuierlich), und wir haben GMMs wobei \ delta (P , Q) <\ epsilon , ist dieser Wert dann klein: \ left | \ mathsf {mmse} (X | X + Y) - \ mathsf {mmse} (\ hat {X} | \ hat {X} + \ hat { Y}) \ right |, dh ist es wahr, dass das Schätzen von X durch Y- Rauschen ungefähr so ​​schwierig ist wie das Schätzen von \ hat {X} durch \ hat {Y} Rauschen? Y ~ P Y X ~ Q X , Y ~ Q N δ ( P , Q ) < & egr; | m m s e ( X | X + Y ) - m m s e ( X | X + Y ) | , X Y XXPXYPYX^QX,Y^QNδ(P,Q)<ϵ
    |mmse(X|X+Y)mmse(X^|X^+Y^)|,
    XYX^Y^
  • Können Sie dies für nicht-additive Geräuschmodelle wie Poisson-Geräusche tun?

Meine (kurze) Literaturrecherche hat bisher nur sehr gelebte Tutorials ergeben. Hat jemand Referenzen, die konsequent belegen, unter welchen Bedingungen die Verwendung von Mischungsmodellen gerechtfertigt ist?


3
Die Menge der GMMs ist in der Menge der Verteilungen in der schwachen Topologie dicht (entsprechend der Konvergenz der Verteilung); siehe zB hier . Ich bin mir nicht sicher, ob Ihre erste Aussage zutrifft, obwohl es sicherlich erforderlich wäre, Null-Varianz-Komponenten in der Mischung mit beliebigen Punktmassen in umgehen zu lassen . Ich bin auch skeptisch gegenüber dem zweiten Aufzählungspunkt, wieder wegen der Frage der Punktmassen. P
Dougal

1
Guter Punkt, ich habe angegeben, dass alles kontinuierlich sein soll
zwischen dem

1
Vielleicht haben Sie mehr Glück, wenn Sie sich die Literatur zur Schätzung der Kerneldichte mit Gaußschen Kernen ansehen. Erhalten Sie einen asymptotisch unvoreingenommenen und konsistenten Schätzer der Verteilung, da Sie eine Mischung von Gaußschen mit einer pro Probe haben, wenn die Anzahl der Proben steigt? Ich denke, die Antwort ist ja, konnte aber nicht sofort eine Referenz finden.
Greg Ver Steeg

2
@enthdegree: Sehr gute Frage. Da Sie starke Topologien verwenden möchten (KL-Divergenz und Total-Variation), lautet die allgemeine Antwort auf Ihre ersten beiden Punkte "Nein". Die KL für jede endliche Gauß-Mischung ist unendlich (ich bin mir ziemlich sicher, dass dies funktioniert, wenn auch nicht zu 100%). Dies führt jedoch zu der viel interessanteren Frage, für welche Unterklasse von Wahrscheinlichkeitsverteilungen würden alle Ihre Aufzählungspunkte zutreffen? Ich kenne die Antwort nicht, aber sie scheint äußerst interessant zu sein. Ich vermute, es sind wahrscheinlich fast alle Wahrscheinlichkeitsverteilungen.
Guillaume Dehaene

1
Ich habe mit diesem Buch Unterricht genommen. Link Es gibt einige gute Hintergrundinformationen zu den Grundlagen.
EngrStudent

Antworten:


0

In der Ökonometrie, in der es sich um Mischungsverteilungen von Koeffizienten in Logit-Modellen handelt, lautet die Standardreferenz: GEMISCHTE MNL-MODELLE FÜR DISKRETE REAKTION DANIEL MCFADDEN UND KENNETH TRAIN, JOURNAL OF APPLIED ECONOMETRICS, J. Appl. Econ. 15: 447 & ndash; 470 (2000).


0

In Bezug auf Ihre Fragen:

  1. Für das sehr ähnliche Bayes'sche Problem der Dirichlet-Prozessmischung von Gaußschen verstehe ich die Antwort ja. Ghosal (2013) .
  2. Als ich an einigen Vorträgen zu diesem Thema teilnahm, schien es, dass Fortschritte hauptsächlich mit der KL-Divergenz erzielt wurden. Siehe Harry van Zantens Folien .
  3. Ich bin nicht klar. Dies scheint jedoch ein Problem der Quellentrennung zu sein ( unbekannt). Diese sind in der Regel viel schwieriger als die Modellierung von Gemischen. Insbesondere für den einfachen Fall von P N = P S = N ( 0 , 1 ) wäre es nicht möglich, das wahre X und zu identifizierenPN,PSPN=PS=N(0,1)Xaufgrund der Symmetrie der Verteilungen um Null Y.Y
  4. Im vierten der oben verlinkten Folien finden Sie eine Liste der Bayes'schen Modelle, für die Konvergenz Gültigkeit garantiert.

0

Hier ist eine teilweise Antwort.

Sprich ist die Klasse aller Gaußschen Gemische mit n Komponenten. Können wir für jede kontinuierliche Verteilung P auf den Reals garantieren, dass wir mit zunehmendem n P mit einem GMM mit vernachlässigbarem Verlust im Sinne der relativen Entropie approximieren können ? Das heißt, lim n inf PS n D ( P | | P ) = 0 ?SnnPnP

limninfP^SnD(P||P^)=0?

Nein. Sie können nur hoffen, dass eine KL-Divergenz klein ist, wenn Sie wissen, dass die Schwänze von Q letztendlich in der gleichen Größenordnung wie die von P liegen . Dies ist im Allgemeinen nicht wahr. Es ist nicht schwer , dass für sehen P Cauchy dann für alle n , inf PS n D ( P | | P ) = D(PQ)QPPn

infP^SnD(P||P^)=

Dazu sind weitere Bedingungen für erforderlich.P

Sagen wir eine kontinuierliche Verteilung haben , und wir haben ein gefunden N -Komponente Gaussian Gemisch P , die nahe ist P in Gesamtvariation: δ ( P , P ) < ε . Können wir gebunden D ( P | | P ) in Bezug auf die ε ?PNP^Pδ(P,P^)<εD(P||P^)ϵ

Nein. Es gilt das gleiche Beispiel.

Wenn wir wollen , beobachten durch unabhängige additive Rauschen Y ~ P Y (sowohl real, kontinuierlich), und wir haben GVM X ~ Q X , Y ~ Q Y wo δ ( P , Q ) < ε , dann Ist dieser Wert klein ? m m s e ( X | X + Y ) - m m s e ( XXPXYPYX^QX,Y^QYδ(P,Q)<ϵ

|mmse(X|X+Y)mmse(X^|X^+Y^)|,
XYX^Y^

X,Y,X^,Y^E[X|Y]E[X^|Y^]|EP[(EP[X|Y]X)2]EQ[(EQ[X|Y]X)2]| is small when TV(P,Q) is small. Related.

I haven't been able to prove this, either in general or using the extra additive structure we have assumed on P,Q, or come up with any counterexamples.

Can you do it for non-additive noise models like Poisson noise?

This is ambiguous. In the context of the previous question, if the statement in that answer can be proven in general then the answer is yes.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.