Hyperparameter-Tuning in der Gaußschen Prozessregression

Ich versuche, die Hyperparameter des von mir implementierten Gaußschen Prozessregressionsalgorithmus abzustimmen. Ich möchte einfach die logarithmische Grenzwahrscheinlichkeit maximieren, die durch die Formel wobeidie Kovarianzmatrix mit den Elementen

Log (y | X., θ) = - - \frac{1}{2} y^{T.} {K.}_{y}^{- - 1} y - - \frac{1}{2} Log (det (K.)) - - \frac{n}{2} Log (2 π)

$\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)$

K

$K$

wobei

und

Hyperparameter sind.

{K.}_{ich j} = k (x_{ich}, x_{j}) = b^{- - 1} \exp (- - \frac{1}{2} (x_{ich} - - x_{j})^{T.} M. (x_{ich} - - x_{j})) + {ein}^{- - 1} δ_{ich j}

$K_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}$

M = l I

$M=lI$

a, b

$a,b$

l

$l$

Die partielle Ableitung der logarithmischen Grenzwahrscheinlichkeit für die Parameter ist durch das folgende

\frac{Log (y | X., θ)}{d θ} = \frac{1}{2} t r ein c e ({K.}^{- - 1} \frac{d K.}{d θ}) + \frac{1}{2} (y \frac{d K.}{d θ} {K.}^{- - 1} \frac{d K.}{d θ} y)

$\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y})$

$K$ $K$ . Dies bedeutet, wenn ein gradientenbasierter Optimierer verwendet wird, erfordert die Auswertung des Gradienten an einem bestimmten Punkt (Parameterwert) eine Neuberechnung der Kovarianzmatrix. In meiner Anwendung ist dies nicht möglich, da die Berechnung der Kovarianzmatrix von Grund auf und die Berechnung ihrer Inversen bei jeder Iteration des Gradientenaufstiegs zu teuer ist. Meine Frage ist, welche Möglichkeiten ich habe, um eine ziemlich gute Kombination dieser drei Parameter zu finden. und ich weiß auch nicht, welchen Parameter ich zuerst optimieren soll, und ich würde mich auch über Hinweise zu diesem Thema freuen.

— bfaskiplar
quelle

Ich hatte Erfolg mit HMC, um GP-Hyperparameter für Datensätze mit bescheidener Größe abzutasten.

— Sycorax sagt Reinstate Monica

Hallo @Sycorax, können Sie uns bitte sagen, wie Sie diese Technik verwendet haben, um dieses Problem zu lösen? Ich habe das gleiche Problem wie das OP und habe darüber nachgedacht, MCMC zu verwenden, um es zu lösen, weiß aber noch nicht, wie ich das machen soll.

— Willian Fuks

Ich habe gerade den GP in Stan programmiert. Die GP-Hyperparameter wurden als Parameter des Modells deklariert und entsprechend abgeleitet. Dies erzeugte einen Satz von Vorhersagen für jede HMC-Iteration. Gelman zeigt, wie das alles in BDA3 funktioniert.

— Sycorax sagt Reinstate Monica

Sie haben Recht, dass Sie bei jeder Iteration des Gradientenaufstiegs eine neue Kovarianzmatrixberechnung benötigen. Wenn die Matrixberechnung für Ihre Einstellung nicht möglich ist, können Sie meiner Meinung nach keine gradientenbasierte Optimierung der Grenzwahrscheinlichkeit verwenden.

Mein Vorschlag ist, gradientenfreie Methoden für die Optimierung von Hyperparametern zu verwenden, z. B. Rastersuche, Zufallssuche oder Bayes'sche optimierungsbasierte Suche . Diese Methoden werden häufig zur Optimierung von Hyperparametern anderer Algorithmen für maschinelles Lernen verwendet, z. B. SVMs.

Ich schlage die Rastersuche für Ihren ersten Versuch vor. Sie bilden im Grunde eine Tabelle (Raster) möglicher Hyperparameter, probieren jeden aus und suchen nach der besten Validierungsleistung (oder der besten Grenzwahrscheinlichkeit).

Die Rastersuche würde einen suboptimalen Satz von Hyperparametern ergeben, und Sie müssen das Raster selbst angeben (Tipp: Raster in einer Protokollskala erstellen), es ist jedoch weitaus weniger Berechnung erforderlich. (und du brauchst kein Gefälle!)

Wenn Sie mit der Rastersuche nicht vertraut sind, können Sie Wikipedia nachschlagen : Hyperparameter Optimization - Grid Search

— Sangwoong Yoon
quelle