Simulation des hinteren Teils eines Gaußschen Prozesses

Zum ersten Mal (entschuldigen Sie Ungenauigkeit / Fehler) habe ich mir Gaußsche Prozesse angesehen und mir dieses Video von Nando de Freitas genauer angesehen . Die Notizen sind hier online verfügbar .

Irgendwann zieht er $10$ Zufallsstichproben aus einer multivariaten Normalen, die durch Konstruktion einer Kovarianzmatrix basierend auf einem Gaußschen Kern (Exponential der quadratischen Abstände in der $x$ Achse) erzeugt wurden. Diese Zufallsstichproben bilden die vorherigen glatten Diagramme, die mit der Verfügbarkeit von Daten weniger verbreitet werden. Letztendlich besteht das Ziel darin, durch Modifizieren der Kovarianzmatrix und Erhalten der bedingten Gaußschen Verteilung an den interessierenden Punkten vorherzusagen.

Der gesamte Code ist in einer ausgezeichneten Zusammenfassung von Katherine Bailey hier verfügbar , die wiederum ein Code-Repository von Nando de Freitas hier gutschreibt . Ich habe den Python-Code hier zur Vereinfachung veröffentlicht.

Es beginnt mit (anstelle von oben) vorherigen Funktionen und führt einen "Abstimmungsparameter" ein. $3$ $10$

Ich habe den Code in Python und [R] übersetzt , einschließlich der Diagramme:

Hier ist der erste Codeabschnitt in [R] und die resultierende Darstellung von drei zufälligen Kurven, die über einen Gaußschen Kernel basierend auf der Nähe der Werte im Testsatz generiert wurden : $x$

Der zweite Teil des R-Codes ist haariger und beginnt mit der Simulation von vier Punkten von Trainingsdaten, die schließlich dazu beitragen, die Streuung zwischen den möglichen (vorherigen) Kurven um die Bereiche, in denen diese Trainingsdatenpunkte liegen, einzugrenzen. Die Simulation des Werts für diese Datenpunkte erfolgt als -Funktion. Wir können die "Verschärfung der Kurven um die Punkte" sehen: $y$ $\text{sin}()$

Der dritte Teil des R-Codes befasst sich mit der Darstellung der Kurve der geschätzten Mittelwerte (das Äquivalent der Regressionskurve), die Werten entspricht (siehe Berechnung unten), und ihrer Konfidenzintervalle: $50$ ${\bf\mu}$

FRAGE: Ich möchte um eine Erklärung der Operationen bitten, die stattfinden, wenn ich vom vorherigen Hausarzt zum hinteren Hausarzt gehe.

Insbesondere möchte ich diesen Teil des R-Codes (im zweiten Block) verstehen, um die Mittel und SD zu erhalten:

# Apply the kernel function to our training points (5 points):

K_train = kernel(Xtrain, Xtrain, param)                          #[5 x 5] matrix

Ch_train = chol(K_train + 0.00005 * diag(length(Xtrain)))        #[5 x 5] matrix

# Compute the mean at our test points:

K_trte = kernel(Xtrain, Xtest, param)                            #[5 x 50] matrix
core = solve(Ch_train) %*% K_trte                                #[5 x 50] matrix
temp = solve(Ch_train) %*% ytrain                                #[5 x 1] matrix
mu = t(core) %*% temp                                            #[50 x 1] matrix

Es gibt zwei Kernel (einen von Zug ( ) gegen Zug ( ), nennen wir es mit seinem Cholesky ( ), , der von nun an alle Cholesky orange färbt, und den zweiten von Zug ( ) v - Test ( ) , nennen sie es ) und das geschätzte Mittel zur Erzeugung für die Punkte in dem Prüfgerät die Operation: $\bf a$ $\bf a$ K_train $\bf \Sigma_{aa}$ Ch_train $\bf \color{orange}{L_{aa}}$ $\bf a$ $\bf e$ K_trte $\bf \Sigma_{ae}$ $\hat \mu$ $50$

\begin{aligned} (Gl. 1) & \hat{μ} & = {[\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]}^{T.} \underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 1]]}{y_{t r}} \\ Maße = [50 \times 1]] \end{aligned}

$\begin{align} {\bf \hat \mu}&={\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T \, \underset{\color{blue}{[5 \times 5]}}{\color{orange}{L_{aa}}^{-1}} \, \underset{\color{blue}{[5 \times 1]}}{y_{tr}}}\bf\tag{Eq.1}\\ &\text{dimensions}=\color{red}{\left[50 \times 1\right]} \end{align}$

# Compute the standard deviation:

tempor = colSums(core^2)                                          #[50 x 1] matrix

# Notice that all.equal(diag(t(core) %*% core), colSums(core^2)) TRUE

s2 = diag(K_test) - tempor                                        #[50 x 1] matrix
stdv = sqrt(s2)                                                   #[50 x 1] matrix

\begin{aligned} (Gleichung 2) & \hat{var} & = diag (Σ_{e e}) - - diag [{[\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]}^{T.} [\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]]] \\ = d [\begin{matrix} 1 & \dots \\ 1 \\ ⋱ \\ \dots & 1 \\ \dots & 1 \end{matrix}]] - - d [{[\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]}^{T.} [\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]]] \\ Maße = [50 \times 1]] \end{aligned}

$\begin{align} {\bf \hat{\text{var}}}&=\text{diag}\left({\bf \Sigma_{ee}}\right)-\text{diag} \left[\bf \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \bf \tag{ Eq.2} \\ &=\text{d}\small{\begin{bmatrix}1&&\dots&\\&1\\&&\ddots\\&&\dots&1&\\ &&&\dots&1\end{bmatrix}}-\bf \text{d} \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right]\\ &\text{dimensions} = \color{red}{\left[50 \times 1\right]} \end{align}$

Wie funktioniert das?

$\hat \mu$

Ch_post_gener = chol(K_test + 1e-6 * diag(n) - (t(core) %*% core))
m_prime = matrix(rnorm(n * 3), ncol = 3)
sam = Ch_post_gener %*% m_prime
f_post = as.vector(mu) + sam

\begin{aligned} (Gleichung 3) & f_{Post} & = \hat{μ} + [\underset{[50 \times 50]]}{{L.}_{e e}} - - [{[\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]}^{T.} [\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]]]]] [\underset{[50 \times 3]]}{N. (0, 1)}]] \\ Maße = [50 \times 3]] \end{aligned}

$\begin{align} f_{\text{post}}&=\bf \hat \mu +\small \left[ \underset{\color{blue}{[50 \times 50]}} {\color{orange}{L_{ee}}}\, \, \, - \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \right] \left[\underset{\color{green}{[50 \times 3]}}{\mathscr N(0,1)}\right]\tag{Eq.3} \\ &\text{dimensions}= \color{red}{\left[50 \times 3\right]} \end{align}$

— Antoni Parellada
quelle

Sollten die Konfidenzintervalle in der letzten Darstellung nicht an den bekannten Punkten "kneifen"?

— GeoMatt22

@ GeoMatt22 Sie tun es irgendwie, meinst du nicht auch?

— Antoni Parellada

$e$ $a$ $a$ $e$ $*$

[\begin{matrix} ein \\ e \end{matrix}]] \sim N. ([\begin{matrix} μ_{ein} \\ μ_{e} \end{matrix}]], [\begin{matrix} Σ_{ein ein} & Σ_{ein e} \\ {Σ_{ein e}}^{T.} & Σ_{e e} \end{matrix}]])

${\bf\begin{bmatrix} a\\ \bf e\end{bmatrix}}\sim \mathscr N\left( \begin{bmatrix}\bf \mu_a\\\mu_e \end{bmatrix}\,,\begin{bmatrix}\bf \Sigma_{aa}&\bf \Sigma_{ae} \\ {\bf \Sigma_{ae}}^T & \bf \Sigma_{ee}\end{bmatrix}\right)$

$E({\bf x}_1 | {\bf x}_2)= {\boldsymbol \mu}_1 + \Sigma_{12} \Sigma^{-1}_{22} ({\bf x}_2- {\boldsymbol \mu}_2)$ $[50 \times 50]$ $\bf \Sigma_{aa}$ $[50 \times 5]$ $\bf \Sigma_{ae}$ wird eine transponierte notwendig sein, um die Matrizen kongruent zu machen in:

E. (e | ein) = μ_{e} + {Σ_{ein e}}^{T.} {Σ_{ein ein}}^{- - 1} (y - - μ_{ein})

$E ({\bf e\vert a}) = {\bf \mu_e} + {\bf \Sigma_{ae}}^T {\bf \Sigma_{aa}}^{-1}\,\left ({\bf y}-{\bf \mu_{a}}\right)$

μ_{a} = μ_{e} = 0

${\bf \mu_{a}} = {\bf \mu_{e}}=0$

E. (e | ein) = {Σ_{ein e}}^{T.} {Σ_{ein ein}}^{- - 1} y_{t r}

$E ({\bf e\vert a}) = {\bf \Sigma_{ae}}^T {\bf \Sigma_{aa}}^{-1}\,{\bf y_{tr}}$

Geben Sie die Cholesky-Zerlegung ein (die ich wieder wie in OP in Orange codieren werde):

\begin{aligned} E. (e | ein) & = {Σ_{ein e}}^{T.} \underset{< - - - - α - - - - >}{{Σ_{ein ein}}^{- - 1} y_{t r}} \\ = {Σ_{ein e}}^{T.} {({L.}_{ein ein} {L.}_{ein ein}^{T.})}^{- - 1} y_{t r} \\ = {Σ_{ein e}}^{T.} {L.}_{ein ein}^{- - T.} {L.}_{ein ein}^{- - 1} y_{t r} \\ (*) & = {Σ_{ein e}}^{T.} {L.}_{ein ein}^{- - T.} \underset{< - - m - - >}{{L.}_{ein ein}^{- - 1} y_{t r}} \end{aligned}

$\begin{align*} E ({\bf e\vert a}) &= {\bf \Sigma_{ae}}^T\,\, \,\underset{\color{gray}{<--\alpha-->}}{{\bf \Sigma_{aa}}^{-1}\,{\bf y_{tr}}}\\ &={\bf \Sigma_{ae}}^T {\bf \color{orange}{(L_{aa}L_{aa}^T)}}^{-1}\,{\bf y_{tr}}\\ &= {\bf \Sigma_{ae}}^T {\bf \color{orange}{L_{aa}^{-T}L_{aa}^{-1}}}\,{\bf y_{tr}}\\ &= {\bf \Sigma_{ae}}^T {\bf \color{orange}{L_{aa}^{-T}}\,\,\,\,\,\, \underset {\color{gray}{ <-m->}}{\color{orange}{L_{aa}^{-1}}{\bf y_{tr}}}} \tag {*} \end{align*}$

$\bf m =\color{orange}{{\bf L_{aa}}^{-1}}\,{\bf y_{tr}}$ $\color{orange}{\bf L_{aa}} \bf m= {\bf y_{tr}}$ $\bf m$

$\bf B^T A^T = (A\,B)^T$

\begin{aligned} \hat{μ} & = {[\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]}^{T.} \underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 1]]}{y_{t r}} \\ = (Σ_{ein e}^{T.} {L.}_{ein ein}^{- - T.}) ({L.}_{ein ein}^{- - 1} y_{t r}) \\ Maße = [50 \times 1]] \end{aligned}

$\begin{align} {\bf \hat \mu}&={\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T \, \underset{\color{blue}{[5 \times 5]}}{\color{orange}{L_{aa}}^{-1}} \, \underset{\color{blue}{[5 \times 1]}}{y_{tr}}}\\ &=\bf \left( \Sigma_{ae}^T \color{orange}{ L_{aa}^{-T}} \right) \left(\color{orange}{ L_{aa}^{-1}}\, y_{tr} \right)\\ &\text{dimensions} = \color{red}{\left[50 \times 1\right]} \end{align}$

angesichts dessen

{[\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]}^{T.} = {\underset{[50 \times 5]]}{Σ_{ein e}}}^{T.} \underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1 T.}}

$\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T = \underset{\color{blue}{[50 \times 5]}}{\Sigma_{ae}}^T \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1T}}\, \, \,$

Eine ähnliche Argumentation würde auf die Varianz angewendet, beginnend mit der Formel für die bedingte Varianz in einem multivariaten Gaußschen:

v ein r (x_{1} | x_{2}) = Σ_{11} - - Σ_{12} Σ_{22}^{- - 1} Σ_{21}

${\rm var}({\bf x}_1|{\bf x}_2)= \Sigma_{11} -\Sigma_{12}\Sigma^{-1}_{22}\Sigma_{21}$

was in unserem Fall wäre:

\begin{aligned} {var}_{{\hat{μ}}_{e}} & = Σ_{e e} - - Σ_{ein e}^{T.} Σ_{ein ein}^{- - 1} Σ_{ein e} \\ = Σ_{e e} - - Σ_{ein e}^{T.} {[{L.}_{ein ein} {L.}_{ein ein}^{T.}]]}^{- - 1} Σ_{ein e} \\ = Σ_{e e} - - Σ_{ein e}^{T.} {[{L.}_{ein ein}^{- - 1}]]}^{T.} {L.}_{ein ein}^{- - 1} Σ_{ein e} \\ = Σ_{e e} - - {[{L.}_{ein ein}^{- - 1} Σ_{ein e}]]}^{T.} {L.}_{ein ein}^{- - 1} Σ_{ein e} \end{aligned}

$\begin{align*} \bf \text{var}_{\hat\mu_{\bf e}} &= \bf \Sigma_{ee} - \Sigma_{ae}^T\Sigma_{aa}^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \Sigma_{ae}^T \left[ L_{aa}L_{aa}^T\right]^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \Sigma_{ae}^T \left[ L_{aa}^{-1}\right]^TL_{aa}^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \left[ L_{aa}^{-1} \Sigma_{ae}\right]^T L_{aa}^{-1}\Sigma_{ae} \end{align*}$

und Erreichen von Gleichung (2):

\begin{aligned} {var}_{{\hat{μ}}_{e}} & = d [{K.}_{e e} - - {[\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]}^{T.} [\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]]] \\ Maße = [50 \times 1]] \end{aligned}

$\begin{align} \text{var}_{\hat\mu_{\bf e}}&=\text{d}\left[ \bf K_{ee} - \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right]\\ &\text{dimensions}=\color{red}{\left[50 \times 1\right]} \end{align}$

Wir können sehen, dass Gleichung (3) im OP eine Möglichkeit ist, hintere zufällige Kurven zu erzeugen, die von den Daten abhängig sind (Trainingssatz), und eine Cholesky-Form zu verwenden, um drei multivariate normale zufällige Ziehungen zu erzeugen :

\begin{aligned} f_{Post} & = \hat{μ} + [{var}_{{\hat{μ}}_{e}}]] [rnorm \sim (0, 1)]] \\ = \hat{μ} + [\underset{[50 \times 50]]}{{L.}_{e e}} - - [{[\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]}^{T.} [\underset{[5 \times 5]]}{{L.}_{ein ein}^{- - 1}} \underset{[5 \times 50]]}{Σ_{ein e}}]]]]]] [\underset{[50 \times 3]]}{rand.norm's}]] \\ Maße = [50 \times 3]] \end{aligned}

$\begin{align} f_{\text{post}} &= {\bf \hat \mu} + \left[ \text{var}_{\hat\mu_{\bf e}}\right][\text{rnorm}\sim (0,1)]\\ &=\bf \hat \mu + \left[ \underset{\color{blue}{[50 \times 50]}} {\color{orange}{L_{ee}}}\, \, \, - \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \right] \left[\underset{\color{green}{[50 \times 3]}}{\text{rand.norm's}}\right]\\ &\text{dimensions}= \color{red}{\left[50 \times 3\right]} \end{align}$

— Antoni Parellada
quelle

Ist das aus einem Buch oder Papier? Haben Sie eine robuste Methode, um den bedingten Mittelwert und die Varianz zu berechnen, wenn die Kovarianzmatrix EXTREM schlecht konditioniert ist (ohne jedoch nahezu abhängige (nahe gelegene) Datenpunkte zu löschen oder zusammenzuführen), und zwar mit doppelter Genauigkeit? Die Mehrfachpräzision in Software funktioniert, hat jedoch eine Verlangsamung um 2,5 bis 3 Größenordnungen im Vergleich zur Hardware-Doppelpräzision, sodass selbst ein "langsamer" Algorithmus mit doppelter Genauigkeit gut ist. Ich glaube nicht, dass Cholesky es schneidet. Ich denke auch nicht, dass QR dies tut, wenn die Kovarianzmatrix sehr schlecht konditioniert ist. Bei Verwendung von Standard-Backsolves scheint eine mehrfache Präzision erforderlich zu sein.

— Mark L. Stone