Gaußscher RBF vs. Gaußscher Kernel

Was ist der Unterschied zwischen einer linearen Regression mit einer Gaußschen Radialen Basisfunktion (RBF) und einer linearen Regression mit einem Gaußschen Kernel?

regression normal-distribution kernel-trick

— user35965
quelle

Willkommen auf der Site, @ user35965. Bitte buchstabieren Sie Ihre Akronyme. Mit "RBF" meinen Sie die radiale Basisfunktion ?

— gung - Wiedereinsetzung von Monica

Ja, genau das habe ich gemeint. Ordnungsgemäß zur künftigen Bezugnahme vermerkt.

— user35965

Der einzige wirkliche Unterschied besteht in der angewandten Regularisierung. Ein reguliertes RBF-Netzwerk verwendet normalerweise eine Strafe, die auf der Quadratnorm der Gewichte basiert. Für die Kernel-Version liegt die Strafe typischerweise auf der Quadrat-Norm der Gewichte des linearen Modells, die implizit in dem vom Kernel induzierten Merkmalsraum konstruiert sind. Der wesentliche praktische Unterschied besteht darin, dass die Strafe für das RBF-Netzwerk von den Zentren des RBF-Netzwerks (und damit von der Stichprobe der verwendeten Daten) abhängt, während für den RBF-Kern der induzierte Merkmalsraum unabhängig von der Stichprobe von gleich ist Daten, so ist die Strafe eine Strafe für die Funktion des Modells und nicht für seine Parametrisierung .

Mit anderen Worten, für beide Modelle haben wir

$f(\vec{x}') = \sum_{i=1}^\ell \alpha_i \mathcal{K}(\vec{x}_i, \vec{x}')$

Für den RBF-Netzwerkansatz ist das Trainingskriterium

$L = \sum_{i=1}^\ell (y_i - f(\vec{x}_i))^2 + \lambda \|\alpha\|^2$

Für die RBF kernel Methode haben wir , dass , und . Dies bedeutet, dass eine quadratische Normstrafe für die Gewichte des Modells im induzierten Merkmalsraum in Form der dualen Parameter as geschrieben werden kann $\mathcal{K}(\vec{x},\vec{x}') = \phi(\vec{x})\cdot\phi(\vec{x}')$ $\vec{w} = \sum_{i=1}^\ell \alpha_i\phi(\vec{x}_i)$ $\vec{w}$ $\vec{\alpha}$

$\|\vec{w}\|^2 = \vec{\alpha}^T\matrix{K}\vec{\alpha},$

Dabei ist die Matix der paarweisen Auswertungen des Kernels für alle Trainingsmuster. Das Trainingskriterium ist dann $\matrix{K}$

. $L = \sum_{i=1}^\ell (y_i - f(\vec{x}_i))^2 + \lambda \vec{\alpha}^T\matrix{K}\vec{\alpha}$

Der einzige Unterschied zwischen den beiden Modellen ist das im Regularisierungsterm. $\matrix{K}$

Der wesentliche theoretische Vorteil des Kernel-Ansatzes besteht darin, dass Sie ein nichtlineares Modell nach einer festen, nichtlinearen Transformation, die nicht von der Datenstichprobe abhängt, als lineares Modell interpretieren können. Somit wird jede statistische Lerntheorie, die für lineare Modelle existiert, automatisch in die nichtlineare Version übertragen. Dies alles bricht jedoch zusammen, sobald Sie versuchen, die Kernel-Parameter zu optimieren. An diesem Punkt sind wir theoretisch wieder so weit wie bei RBF- (und MLP-) neuronalen Netzen. Der theoretische Vorteil ist also vielleicht nicht so groß, wie wir möchten.

Wird es einen echten Unterschied in Bezug auf die Leistung geben? Wahrscheinlich nicht viel. Die "no free lunch" -Sätze deuten darauf hin, dass kein Algorithmus a priori über allen anderen liegt, und der Unterschied in der Regularisierung ist ziemlich subtil. Wenn Sie also Zweifel haben, versuchen Sie beides und wählen Sie das Beste z. B. nach Kreuzvalidierung.

— Dikran Beuteltier
quelle

@CagdasOzgenc Ja, für die RBF ist der Regularisierer

und nicht

für die Kernelmaschine. Sie würden sich ähnlicher werden, wenn sich die Breite der Basisfunktion Null nähert, während sich

nähert . Ich denke, das liegt im Wesentlichen daran, dass

die Korrelation zwischen Basisfunktionen erklärt.

‖ \vec{α} ‖^{2} = {\vec{α}}^{T} \begin{matrix} I \end{matrix} \vec{α}

$\|\vec{\alpha}\|^2 = \vec{\alpha}^T\matrix{I}\vec{\alpha}$

{\vec{α}}^{T} \begin{matrix} K \end{matrix} \vec{α}

$\vec{\alpha}^T\matrix{K}\vec{\alpha}$

K

$K$

I

$I$

K

$K$

— Dikran Beuteltier

@CagdasOzgenc Ich betrachte es so, dass das

im Regularisierer die Strafe für jeden Basisvektor unterschiedlich gewichtet und die Strafe von der Auswahl der anderen Basisvektoren abhängt. Dieses Gewicht hängt von ihren Korrelationen ab. Wenn Sie also eine andere Probe auswählen, ändern sich die Gewichte, um dies zu kompensieren. Die andere Sichtweise ist, dass das Modell in einem durch

bestimmten Merkmalsraum definiert ist , der nicht von der Wahl der Basisvektoren abhängt (vorausgesetzt, sie erstrecken sich über den Raum, der die Daten enthält).

K

$K$

ϕ (x)

$\phi(x)$

— Dikran Beuteltier

@CagdasOzgenc Sicher können wir den Raum der Basisfunktionen durch eine Eigenzerlegung von

transformieren und einen

Stil-Regularisierer zurückgewinnen (in der Tat ist dies ein nützlicher Trick zur Optimierung des Regularisierungsparameters - doi.org/10.1016/j .neunet.2007.05.005 ). Diese Transformation beseitigt jedoch die Abhängigkeit von der ursprünglichen Wahl der Basisfunktion. Für die beiden Dinge gleich sein müßte

, die im allgemeinen nicht wahr ist (vor allem nicht für den RBF - Kernel).

K

$K$

‖ {\vec{α}}^{'} ‖^{2}

$\|\vec{\alpha}'\|^2$

{\vec{α}}^{T} \begin{matrix} K \end{matrix} \vec{α} = μ {\vec{α}}^{T} \begin{matrix} I \end{matrix} \vec{α}

$\vec{\alpha}^T\matrix{K}\vec{\alpha} = \mu\vec{\alpha}^T\matrix{I}\vec{\alpha}$

— Dikran Marsupial

Vielen Dank. Ich werde darüber nachdenken und mich bei Ihnen melden. Im Moment bin ich anscheinend nicht auf Ihrer Ebene des Verständnisses. Ich muss mehr nachdenken :).

— Cagdas Ozgenc

@CagdasOzgenc kein Problem, die meisten Standardtexte erklären es durch Eigenfunktionen der Kernelfunktion, was auch mein Gehirn verletzt! ; o)

— Dikran Marsupial