Warum ist das Problem der Unordnung bei großen Stichproben nicht zu lösen?


13

Angenommen, wir haben eine Menge von Punkten y={y1,y2,,yN} . Jeder Punkt wird unter Verwendung der Verteilung p ( y i | x ) = 1 erzeugtyi

p(yi|x)=12N(x,1)+12N(0,10).
Um posterior fürx, schreiben wir
p(x|y)p(y|x)p(x)=p(x)i=1Np(yi|x).
Nach Minkas Artikel überExpectation Propagationbenötigen wir2NBerechnungen, um posterior zu erhaltenp(x|y) und somit wird das Problem für große Stichprobengrößen lösbarN. Ich kann jedoch nicht herausfinden, warum wir in diesem Fall so viele Berechnungen benötigen, da für singleyi Wahrscheinlichkeit die Form
p(yi|x)=122π(exp{12(yix)2}+110exp{120yi2}).

Unter Verwendung dieser Formel erhalten wir posterior durch einfache Multiplikation von , so dass wir nur N Operationen benötigen und dieses Problem für große Stichprobengrößen genau lösen können.p(yi|x)N

Ich mache ein numerisches Experiment, um zu vergleichen, erhalte ich wirklich den gleichen Posterior, wenn ich jeden Term separat berechne und wenn ich das Produkt der Dichten für jedes . Hintere sind gleich. Siehe Wo irre ich mich? Kann mir jemand klar machen, warum wir 2 N- Operationen benötigen , um den posterioren Wert für gegebenes x und gegebenes y zu berechnen ?yiBildbeschreibung hier eingeben2Nxy


Eine Operation pro Term und Terms, also brauchen wir O ( N ) Operationen. Außerdem schaue ich noch einmal in Minkas Aufsatz und in Bishops Kapitel über ungefähre Schlussfolgerungen nach. Beide schlagen vor, dass wir schätzen und posterior für x erhalten wollen . NO(N)x
Alexey Zaytsev

Verstehe ich richtig, dass dein univariate sind? In diesem yiO(nlog(n))n
Fall

1
@Alexey Nach dem erneuten Lesen dieses Absatzes, denke ich, erwähnt der Autor keine Operationen. Er weist nur darauf hin, dass "der Glaubenszustand für x eine Mischung aus 2 N Gaußschen ist" . 2Nx2N

1
@Procrastinator laut Papier wollen wir die Glaubensausbreitung verwenden, können sie aber nicht verwenden, da wir eine Mischung von Gaußschen vorgehen müssen . Dann ist die Frage, warum wir BP verwenden wollen? Eine andere Frage stellt sich, wenn wir Kapitel 10.7.1 in Bishops PRML lesen oder einen Videovortrag von Minka ansehen . Danach ist die Antwort nicht so klar. 2N
Alexey Zaytsev

1
@Alexey Ich denke, die Logik dahinter ist anders. Der Autor beschreibt, was passiert, wenn Sie die Glaubensausbreitung verwenden, um einige Schwierigkeiten damit hervorzuheben, wenn groß ist, und dann seine "Erwartungsausbreitung" zu fördern. Er erwähnt, dass die Verbreitung des Glaubens die Verwendung einer Mischung von 2 N Gaußschen für den Glaubenszustand für x erfordert, was kompliziert wird, wenn N groß ist. Es wird nicht auf die Anzahl der erforderlichen Operationen eingegangen, sondern auf die Komplexität des Glaubenszustands für x . N2NxNx

Antworten:


4

Sie haben Recht, dass die Zeitung das Falsche sagt. Sie können die posteriore Verteilung von an einer bekannten Stelle mit O ( n ) -Operationen auswerten . Das Problem ist, wenn Sie Momente des Seitenzahns berechnen möchten. Um das hintere Mittel von x genau zu berechnen , würden Sie 2 N Operationen benötigen . Dies ist das Problem, das das Papier zu lösen versucht.xO(n)x2N


2

Sie haben den Punkt übersehen, dass die Verteilung eine Mischung von Gaußschen ist: Jede Stichprobe wird entweder nach p ( y i | x ) mit der Wahrscheinlichkeit 1 - w und nach p c ( y ) (Störungsverteilung für y , unabhängig von x) verteilt ) mit Wahrscheinlichkeit w .yip(yi|x)1wpc(y)yxw

Sei die Indikatorvariable, die angibt, dass die Probe i aus der Störverteilung gezogen wurde; Wenn es also 0 ist, bedeutet dies, dass die Stichprobe aus p ( y | x ) gezogen wurde . Wenn die Stichprobe aus der Störfleckverteilung gezogen wurde, ist ihr Wert offensichtlich für die Schätzung von x irrelevant .cii0p(y|x)x

Es ist das Vorhandensein der möglichen gemeinsamen Zustände für diese Indikatorvariablen, die das Problem verursachen.2N


Wir können jedoch zusätzliche -Variablen löschen, da wir eine maximale posteriore Lösung des Problems erhalten müssen. Posterior für x hat eine klare Form, so dass wir nicht gezwungen sind, alle 2 N gegenwärtigen Zustände zu berücksichtigen . Die Frage lautet also: "Warum benötigen wir diese Menge an Berechnungen, wenn wir eine maximale hintere Lösung finden möchten?" cix2N
Alexey Zaytsev

Die Maximierung muss über die Zustände für die Variablen übernommen werden. c
Dave

Wir kennen , also integrieren wir c i . Das geht doch direkt, oder? cici
Alexey Zaytsev

Direkt ja, aber die Anzahl der Zustände (Terme) wächst wie , was rechnerisch problematisch sein kann. 2N
Dave

Wir können dies für jede Beobachtung auf unabhängige Weise tun, so dass wir und nicht O ( 2 n ) -Komplexität haben. O(n)O(2n)
Alexey Zaytsev
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.