Es wird oft gesagt, dass die Gaußsche Prozessregression (GPR) der Bayes'schen linearen Regression mit einer (möglicherweise) unendlichen Anzahl von Basisfunktionen entspricht. Ich versuche derzeit, dies im Detail zu verstehen, um eine Vorstellung davon zu bekommen, welche Art von Modellen ich mit GPR ausdrücken kann.
- Glauben Sie, dass dies ein guter Ansatz ist, um GPR zu verstehen?
In dem Buch Gaußsche Prozesse für maschinelles Lernen zeigen Rasmussen und Williams, dass die Menge der Gaußschen Prozesse, die durch den parametrisierten Exponentialquadratkern kann äquivalent als Bayes'sche Regression mit vorheriger Überzeugung über die Gewichte und unendlich viele Basisfunktionen von beschrieben werden die Form Somit könnte die Parametrisierung des Kernels vollständig in eine Parametrisierung der Basis übersetzt werden funktionen.w≤N(0,σ 2 p I)≤c(x;l)=exp(-(x-c)2
- Kann die Parametrisierung eines differenzierbaren Kernels immer in eine Parametrisierung der Vorgänger- und Basisfunktionen übersetzt werden oder gibt es differenzierbare Kernel, bei denen zB die Anzahl der Basisfunktionen von der Konfiguration abhängt?
Mein bisheriges Verständnis ist, dass für eine feste Kernelfunktion k (x, x ') Mercers Theorem uns sagt, dass ausgedrückt werden kann als wobei eine Funktion entweder in die reellen oder die komplexen Zahlen ist. Somit hat für einen gegebenen Kern das entsprechende Bayes'sche Regressionsmodell vor und Basisfunktionen . Somit kann jeder GP sogar als Bayes'sches lineares Regressionsmodell mit Diagonalprior formuliert werden. Wenn wir nun jedoch den Mercer-Satz für jede Konfiguration eines parametrisierten Kernels , der bei jedem differenzierbar istk ( x , x ' ) = ∞ & Sigma; i = 1 λ i φ i ( x ) φ i ( x ' ) φ i w ~ N ( 0 , diag ( [ λ 2 1 θ ) θ
Meine nächste Frage betrifft das Inverse des Mercer-Theorems.
- Welche Basisfunktionen führen zu gültigen Kerneln?
Und die Verlängerung
- Welche Sätze von parametrisierten Basisfunktionen führen zu gültigen differenzierbaren Kerneln?