Wie kann man die Eigenschaften der Kovarianzmatrix sicherstellen, wenn man ein multivariates normales Modell mit maximaler Wahrscheinlichkeit anpasst?

22

Angenommen, ich habe das folgende Modell

y_{i} = f (x_{i}, θ) + ε_{i}

$y_i=f(x_i,\theta)+\varepsilon_i$

Dabei ist , ein Vektor erklärender Variablen, die Parameter der nichtlinearen Funktion und , wobei natürlich Matrix. $y_i\in \mathbb{R}^K$ $x_i$ $\theta$ $f$ $\varepsilon_i\sim N(0,\Sigma)$ $\Sigma$ $K\times K$

Das Ziel ist die übliche Schätzung von und . Die naheliegende Wahl ist die Maximum-Likelihood-Methode. Log-Wahrscheinlichkeit für dieses Modell (vorausgesetzt, wir haben eine Stichprobe ) sieht so aus $\theta$ $\Sigma$ $(y_i,x_i),i=1,...,n$

l (θ, Σ) = - \frac{n}{2} \log (2 π) - \frac{n}{2} \log det Σ - \sum_{i = 1}^{n} (y_{i} - f (x_{i}, θ))^{'} Σ^{- 1} (y - f (x_{i}, θ)))

$l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta)))$

Nun scheint dies einfach zu sein, die Log-Wahrscheinlichkeit wird angegeben, Daten eingegeben und ein Algorithmus für die nichtlineare Optimierung verwendet. Das Problem ist, wie sichergestellt werden kann, dass definitiv positiv ist. Die Verwendung von beispielsweise in R (oder einem anderen nichtlinearen Optimierungsalgorithmus) garantiert mir nicht, dass eindeutig positiv ist. $\Sigma$ optim $\Sigma$

Die Frage ist also, wie sichergestellt werden kann, dass eindeutig positiv bleibt. Ich sehe zwei mögliche Lösungen: $\Sigma$

als umparametrieren wobei eine obere Dreiecksmatrix oder eine symmetrische Matrix ist. Dann ist immer positiv und kann frei sein. $\Sigma$ $RR'$ $R$ $\Sigma$ $R$
Verwenden Sie die Profilwahrscheinlichkeit. Leiten Sie die Formeln für $\hat\theta(\Sigma)$ und $\hat{\Sigma}(\theta)$ . Beginnen Sie mit einigem $\theta_0$ und iterieren Sie $\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1})$ , $\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1})$ bis zur Konvergenz.

Gibt es einen anderen Weg und was ist mit diesen beiden Ansätzen, funktionieren sie, sind sie Standard? Dies scheint ein ziemlich normales Problem zu sein, aber die schnelle Suche hat mir keine Hinweise gegeben. Ich weiß, dass auch eine Bayes'sche Schätzung möglich wäre, aber im Moment würde ich mich nicht darauf einlassen wollen.

maximum-likelihood optimization covariance

— mpiktas
quelle

Ich habe das gleiche Problem in einem Kalman-Algorithmus, aber das Problem ist viel komplizierter und nicht so einfach, den Hamilton-Trick anzuwenden. Ich frage mich dann, ob es einfacher wäre, einfach . Auf diese Weise erzwinge ich, dass der Code keinen Fehler ausgibt und ändere die Lösung nicht. Dies hat auch den Vorteil, dass dieser Term das gleiche Vorzeichen wie der letzte Teil der Wahrscheinlichkeit haben muss. Irgendwelche Ideen?

\log (det Σ + 1)

$\log (\det \Sigma+1)$

— econ_pipo

6

Unter der Annahme, dass Sie sich beim Erstellen der Kovarianzmatrix automatisch um das Symmetrieproblem kümmern, ist Ihre Log-Wahrscheinlichkeit wenn aufgrund des Terms in nicht positiv bestimmt ist Modell richtig? Um einen numerischen Fehler zu vermeiden, wenn würde ich vorberechnen und, falls dies nicht positiv ist, die Log-Wahrscheinlichkeit gleich -Inf machen, andernfalls fortfahren. Sie müssen die Determinante sowieso berechnen, so dass dies Sie keine zusätzliche Berechnung kostet. $-\infty$ $\Sigma$ $\log {\rm det} \ \Sigma$ ${\rm det} \ \Sigma < 0$ ${\rm det} \ \Sigma$

— Makro
quelle

5

Wie sich herausstellt, können Sie die maximale Profilwahrscheinlichkeit verwenden, um die erforderlichen Eigenschaften sicherzustellen. Sie können für gegebene beweisen , dass , durch maximiert $\hat\theta$ $l(\hat\theta,\Sigma)$

\hat{Σ} = \frac{1}{n} \sum_{ich = 1}^{n} {\hat{ε}}_{ich} {\hat{ε}}_{ich}^{'},

$\hat\Sigma=\frac{1}{n}\sum_{i=1}^n\hat{\varepsilon}_i\hat{\varepsilon}_i',$

woher

{\hat{ε}}_{ich} = y_{ich} - f (x_{ich}, \hat{θ})

$\hat{\varepsilon}_i=y_i-f(x_i,\hat\theta)$

Dann ist es möglich, das zu zeigen

\sum_{ich = 1}^{n} (y_{ich} - f (x_{ich}, \hat{θ}))^{'} {\hat{Σ}}^{- 1} (y - f (x_{ich}, \hat{θ}))) = c O n s t,

$\sum_{i=1}^n(y_i-f(x_i,\hat\theta))'\hat\Sigma^{-1}(y-f(x_i,\hat\theta)))=const,$

Daher müssen wir nur maximieren

l_{R} (θ, Σ) = - \frac{n}{2} Log det \hat{Σ} .

$l_R(\theta,\Sigma)=-\frac{n}{2} \log\det\hat\Sigma.$

In diesem Fall erfüllt natürlich alle erforderlichen Eigenschaften. Die Beweise sind identisch für den Fall, dass linear ist, was in der Zeitreihenanalyse von JD Hamilton auf Seite 295 zu finden ist, daher habe ich sie weggelassen. $\Sigma$ $f$

— mpiktas
quelle

3

Eine alternative Parametrisierung für die Kovarianzmatrix sind die Eigenwerte und "Givens" -Winkel . $\lambda_1,...,\lambda_p$ $p(p-1)/2$ $\theta_ij$

Das heißt, wir können schreiben

Σ = G^{T} Λ G

$\Sigma = G^T \Lambda G$

wobei orthonormal ist und $G$

Λ = d ich ein G (λ_{1}, . . ., λ_{p})

$\Lambda = diag(\lambda_1, ..., \lambda_p)$

mit . $\lambda_1 \geq ... \geq \lambda_p \geq 0$

In der Zwischenzeit kann in Form von Winkeln, , mit und eindeutig parametrisiert werden . [1] $G$ $p(p-1)/2$ $\theta_{ij}$ $i = 1,2,...,p-1$ $j = i, ..., p-1$

(Details hinzugefügt werden)

[1]: Hoffman, Raffenetti, Ruedenberg. "Verallgemeinerung von Eulerwinkeln zu N-dimensionalen orthogonalen Matrizen". J. Math. Phys. 13, 528 (1972)

— charles.y.zheng
quelle

Die Matrix ist eigentlich orthogonal, weil eine symmetrische Matrix ist. Dies ist der Ansatz, den ich empfehlen wollte - Im Grunde genommen bedeutet dies, den Vektor und die Modellfunktion so zu drehen , dass die Fehler unabhängig sind, und dann OLS auf jede der gedrehten Komponenten anzuwenden (glaube ich).

G

$G$

Σ

$\Sigma$

y_{i}

$y_i$

f (x_{i}, θ)

$f(x_i,\theta)$

— Wahrscheinlichkeitslogik

2

In Anlehnung an die Lösung von charles.y.zheng möchten Sie möglicherweise modellieren , wobei eine Diagonalmatrix und eine Cholesky-Faktorisierung einer Rangaktualisierung von . Sie müssen nur dann die Diagonale von positiv halten, um positiv eindeutig zu halten . Das heißt, Sie sollten die Diagonale von und die Elemente von schätzen, anstatt schätzen . $\Sigma = \Lambda + C C^{\top}$ $\Lambda$ $C$ $\Lambda$ $\Lambda$ $\Sigma$ $\Lambda$ $C$ $\Sigma$

— shabbychef
quelle

Darf ich unter diagonalen Elementen in diesen Einstellungen irgendetwas haben, solange die Diagonale positiv ist? Wenn Matrizen auf diese Weise in Anzahl simuliert werden, sind nicht alle positiv bestimmt.

— 11.

Λ

$\Lambda$ ist eine Diagonalmatrix.

— Shabbychef