Um Ihre Frage zu beantworten: Sie können die Glättungsdichte verwenden. Aber das musst du nicht. Jarle Tuftos Antwort hat die Zersetzung, die Sie verwenden. Aber es gibt noch andere.
Verwenden der Kalman-Rekursionen
Hier bewerten Sie die Wahrscheinlichkeit als
f( y1, … , Y.n) = f( y1) ∏i = 2nf( yich| y1, … , Y.i - 1) .
Mittelwerte und Abweichungen definieren Wahrscheinlichkeitsverteilungen im Allgemeinen jedoch nicht immer vollständig. Das Folgende ist die Zerlegung, die Sie verwenden, um von der Filterung der Verteilungen zu den bedingten Wahrscheinlichkeiten f ( y i | y 1 , … , y i) zu gelangenf( xi - 1| y1, … , Y.i - 1)::f( yich| y1, … , Y.i - 1)
f( yich| y1, … , Y.i - 1) = ∬f( yich| xich) f( xich| xi - 1) f( xi - 1| y1, … , Y.i - 1) dxichdxi - 1.(1)
Hier ist die Zustandsübergangsdichte ... Teil des Modells, und f ( y i | x i ) ist wieder die Beobachtungsdichte ... Teil des Modells. In Ihrer Frage schreiben Sie diese als x t + 1 = F x t + v t + 1 und y t = H x t + A.f( xich| xi - 1)f( yich| xich)xt + 1= F.xt+ vt + 1yt= H.xt+ A zt+ wtbeziehungsweise. Das ist gleich.
Wenn Sie die Zustandsvorhersageverteilung mit einem Schritt voraus erhalten, wird berechnet . Wenn Sie erneut integrieren, erhalten Sie (1) vollständig. Sie schreiben diese Dichte vollständig in Ihre Frage ein, und es ist dasselbe.∫f( xich| xi - 1) f( xi - 1| y1, … , Y.i - 1) dxi - 1
Hier verwenden Sie nur Zerlegungen von Wahrscheinlichkeitsverteilungen und Annahmen über das Modell. Diese Wahrscheinlichkeitsberechnung ist eine genaue Berechnung. Es gibt keinen Ermessensspielraum, mit dem Sie dies besser oder schlechter machen können.
Verwenden des EM-Algorithmus
Meines Wissens gibt es keine andere Möglichkeit, die Wahrscheinlichkeit direkt in einem solchen Zustandsraummodell zu bewerten. Sie können jedoch weiterhin eine Maximum-Likelihood-Schätzung durchführen, indem Sie eine andere Funktion bewerten: Sie können den EM-Algorithmus verwenden. Im Erwartungsschritt (E-Schritt) würden Sie ∫ f ( x 1 , … , x n | y 1 , … y n ) log f ( y 1 , … , y n , x 1 , … , x n ) d berechnen
x 1
Hierf( y 1 ,…, y n , x 1 ,…, x n )
∫f( x1, … , X.n| y1, … Y.n) logf( y1, … , Y.n, x1, … , X.n) dx1 : n= E.s m o o t h[ logf( y1, … , Y.n, x1, … , X.n) ] .
f( y1, … , Y.n, x1, … , X.n)ist die Wahrscheinlichkeit "vollständiger Daten", und Sie nehmen die Erwartung des Protokolls davon in Bezug auf die Verbindungsglättungsdichte. Was häufig passiert, ist, dass Sie, weil Sie das Protokoll dieser vollständigen Datenwahrscheinlichkeit erstellen, die Begriffe in Summen aufteilen und aufgrund der Linearität des Erwartungsoperators Erwartungen in Bezug auf die Randglättungsverteilungen (diejenigen) nehmen Sie erwähnen in Ihrer Frage).
Andere Dinge
Ich habe an einigen Stellen gelesen, dass die EM ein "stabilerer" Weg ist, um die Wahrscheinlichkeit zu maximieren, aber ich habe nie wirklich gesehen, dass dieser Punkt gut argumentiert wurde, noch habe ich dieses Wort "stabil" überhaupt definiert gesehen, aber ich habe es auch Ich habe das nicht weiter untersucht. Keiner dieser Algorithmen umgeht die lokale / globale Maxima-Prüfung. Ich persönlich neige dazu, den Kalman aus Gewohnheit öfter zu benutzen.
Es ist wahr, dass geglättete Schätzungen des Zustands normalerweise eine geringere Varianz aufweisen als das Filtern. Ich denke, Sie haben Recht, eine gewisse Intuition darüber zu haben, aber Sie verwenden die Zustände nicht wirklich. Die Wahrscheinlichkeit, die Sie maximieren möchten, hängt nicht von den Zuständen ab.