Verwenden von Kalman-Filtern, um fehlende Werte in Zeitreihen zu unterstellen

11

Ich bin daran interessiert, wie Kalman-Filter verwendet werden können, um fehlende Werte in Zeitreihendaten zu unterstellen. Ist es auch anwendbar, wenn einige aufeinanderfolgende Zeitpunkte fehlen? Ich kann zu diesem Thema nicht viel finden. Alle Erklärungen, Kommentare und Links sind willkommen und geschätzt!

data-imputation kalman-filter

— GS9
quelle

Dieser Beitrag könnte Sie interessieren . Es gibt ein Beispiel, das auf der Zustandsraumdarstellung eines ARIMA-Modells basiert, um fehlende Werte mithilfe des Kalman-Filters zu unterstellen.

— Javlacalle

@javlacalle danke, ich kannte diesen Beitrag bereits und er ist ein großartiges Beispiel für eine konkrete Implementierung. Der theoretische Hintergrund interessiert mich aber eher.

— GS9

8

Vorbereitungen: Kalman-Filterung :

Kalman-Filter arbeiten mit Zustandsraummodellen der Form (es gibt verschiedene Möglichkeiten, sie zu schreiben; dies ist eine einfache, die auf Durbin und Koopman (2012) basiert; alle folgenden basieren auf diesem Buch, das ausgezeichnet ist):

\begin{aligned} y_{t} & = Z α_{t} + ε_{t} & ε_{t} \sim N (0, H) \\ α_{t_{1}} & = T α_{t} + η_{t} & η_{t} \sim N (0, Q) \\ α_{1} & \sim N (a_{1}, P_{1}) \end{aligned}

$\begin{align} y_t & = Z \alpha_t + \varepsilon_t \qquad & \varepsilon_t \sim N(0, H) \\ \alpha_{t_1} & = T \alpha_t + \eta_t & \eta_t \sim N(0, Q) \\ \alpha_1 & \sim N(a_1, P_1) \end{align}$

Dabei ist die beobachtete Reihe (möglicherweise mit fehlenden Werten), aber ist vollständig unbeobachtet. Die erste Gleichung (die "Mess" -Gleichung) besagt, dass die beobachteten Daten in besonderer Weise mit den nicht beobachteten Zuständen zusammenhängen. Die zweite Gleichung (die "Übergangs" -Gleichung) besagt, dass sich die unbeobachteten Zustände im Laufe der Zeit auf eine bestimmte Weise entwickeln. $y_t$ $\alpha_t$

Das Kalman-Filter arbeitet, um optimale Schätzungen von ( wird als normal angenommen: . Das Kalman-Filter berechnet also tatsächlich den bedingten Mittelwert und die Varianz der Verteilung für abhängig von Beobachtungen bis zum Zeitpunkt $\alpha_t$ $\alpha_t$ $\alpha_t \sim N(a_t, P_t)$ $\alpha_t$ $t$ ).

Im typischen Fall (wenn Beobachtungen verfügbar sind) verwendet der Kalman-Filter die Schätzung des aktuellen Zustands und der aktuellen Beobachtung , um das Beste zu tun, um den nächsten Zustand wie folgt zu schätzen : $y_t$ $\alpha_{t+1}$

\begin{aligned} a_{t + 1} & = T a_{t} + K_{t} (y_{t} - Z α_{t}) \\ P_{t + 1} & = T P_{t} (T - K_{t} Z)^{'} + Q \end{aligned}

$\begin{align} a_{t+1} & = T a_t + K_t (y_t - Z \alpha_t) \\ P_{t+1} & = T P_t (T - K_t Z)' + Q \end{align}$

wobei der "Kalman-Gewinn" ist. $K_t$

Wenn es nicht eine Beobachtung ist, wollen die Kalman - Filter noch berechnen und in der bestmöglichen Art und Weise. Da nicht verfügbar ist, kann es die Messgleichung nicht verwenden, aber es kann immer noch die Übergangsgleichung verwenden . Wenn also fehlt, berechnet der Kalman-Filter stattdessen: $a_{t+1}$ $P_{t+1}$ $y_t$ $y_t$

\begin{aligned} a_{t + 1} & = T a_{t} \\ P_{t + 1} & = T P_{t} T^{'} + Q \end{aligned}

$\begin{align} a_{t+1} & = T a_t \\ P_{t+1} & = T P_t T' + Q \end{align}$

Im Wesentlichen heißt es, dass bei meine beste Vermutung für ohne Daten nur die in der Übergangsgleichung angegebene Entwicklung ist. Dies kann für eine beliebige Anzahl von Zeiträumen mit fehlenden Daten durchgeführt werden. $\alpha_t$ $\alpha_{t+1}$

Wenn es ist Daten , dann der erste Satz von Filtern Gleichungen , um die beste Schätzung , ohne dass Daten, und fügen Sie in eine „Korrektur“, je nachdem , wie gut die vorherige Schätzung war. $y_t$

Daten unterstellen :

$a_t, P_t$ $t = 1, 2, \dots, T$

{\hat{y}}_{t} = Z a_{t}

$\hat y_t = Z a_t$

Als Referenz sind Durbin und Koopman (2012) ausgezeichnet; In Abschnitt 4.10 werden fehlende Beobachtungen erörtert.

Durbin, J. & Koopman, SJ (2012). Zeitreihenanalyse mit Zustandsraummethoden (Nr. 38). Oxford University Press.

— cfulton
quelle

Die Verwendung der reibungsloseren Lösung wäre für die Eingabe sinnvoller (da bereits alle (nicht fehlenden) Daten

— Juho Kokkala

0

Das Beispiel in der Veröffentlichung, auf das javlacalle in seinem Kommentar verweist, enthält aufeinanderfolgende fehlende Zeitpunkte. Möglicherweise interessieren Sie sich auch für Intervalle um die unterstellten (in der Stichprobe prognostizierten) Werte, deren Berechnung in diesem State Space-Dokument in Abschnitt 2.1 aufgeführt ist.

Ein weiteres interessantes Papier ist dieses .

— Wayne
quelle