Feature Map für den Gaußschen Kernel


24

In SVM ist der Gaußsche Kern wie folgt definiert: wobei x, y \ in \ mathbb {R ^ n} . Ich kenne die explizite Gleichung von \ phi nicht . Ich will es wissen.x,yRnφ

K(x,y)=exp(xy222σ2)=ϕ(x)Tϕ(y)
x,yRnϕ

Ich möchte auch wissen, ob

iciϕ(xi)=ϕ(icixi)
wobei ciR . Jetzt denke ich, dass es nicht gleich ist, weil die Verwendung eines Kernels die Situation handhabt, in der der lineare Klassiker nicht funktioniert. Ich kenne ϕ Projekte x zu einem unendlichen Raum. Also, wenn es immer noch linear bleibt, egal wie viele Dimensionen es sind, kann svm immer noch keine gute Klassifizierung vornehmen.

Warum impliziert dieser Kernel eine Transformation? Oder beziehen Sie sich auf den zugehörigen Funktionsbereich?
Placidia

Ja, was ist der Merkmalsraum ϕ() so dass ϕT(x)ϕ(x)=exp(12σ2xx2)
user27886

Antworten:


20

Sie können die explizite Gleichung von ϕ für den Gaußschen Kernel über die Erweiterung der Tailor-Reihe von ex . Nehmen Sie zur Vereinfachung der Notation an, dass xR1 :

ϕ(x)=e-x2/2σ2[1,11!σ2x,12!σ4x2,13!σ6x3,]T

Dies wird auch in diesen Folien von Chih-Jen Lin von NTU (Folie 11 speziell) ausführlicher erörtert . Beachten Sie, dass in den Folien als Kernelparameter verwendet wird.γ=12σ2

Die Gleichung im OP gilt nur für den linearen Kernel.


2
Hallo, aber diese Gleichung passt nur zu einer Dimension.
Vivian

Also, hier ist der reproduzierende Kernel-Hilbert-Raum ein Unterraum von , richtig? 2
The_Anomaly

Gibt es auch eine explizite Darstellung des Laplace-Kernels?
Felix Crazzolara

13

Für jeden gültigen psd kernel , es existiert eine Merkmalskarte , so daß . Der Raum und die Einbettung in der Tat nicht eindeutig sein, aber es gibt ein wichtiges eindeutiges Paar das als reproduzierender Kernel-Hilbert-Raum (RKHS) bekannt ist. φ : XH k ( x , y ) = φ ( x ) , φ ( y ) H H φ ( H , φ )k:X×XRφ:XHk(x,y)=φ(x),φ(y)HHφ(H,φ)

Das RKHS wird diskutiert von: Steinwart, Hush and Scovel, Eine explizite Beschreibung des reproduzierenden Kerns Hilbert-Räume von Gaußschen RBF-Kerns , IEEE-Transaktionen zur Informationstheorie 2006 ( doi , free citeseer pdf ).

Es ist etwas kompliziert, aber es läuft darauf hinaus: Definiere als e n ( z ) : = en:CC

en(z):=(2σ2)nn!zneσ2z2.

Sei eine Folge, die sich über alle Tupel nichtnegativer Ganzzahlen erstreckt; wenn , vielleicht , , und so weiter. Bezeichne die te Komponente des ten Tupels mit . d d = 3 n ( 0 ) = ( 0 , 0 , 0 ) n ( 1 ) = ( 0 , 0 , 1 ) n ( 2 ) = ( 0 , 1 , 1 ) j i n i jn:N0N0ddd=3n(0)=(0,0,0)n(1)=(0,0,1)n(2)=(0,1,1)jichnichj

Dann wird der - ten Komponente von ist . Also bildet Vektoren in auf unendlich dimensionale komplexe Vektoren ab.φ ( x ) Π d j = 1 e n i j ( x j ) φ R dichφ(x)j=1denichj(xj)φRd

Der Haken dabei ist, dass wir für diese unendlichdimensionalen komplexen Vektoren in besonderer Weise Normen definieren müssen; Einzelheiten finden Sie auf dem Papier.


Steinwart et al. Geben Sie auch eine (meiner nach) Einbettung in , den Hilbert-Raum der quadratintegrierbaren Funktionen von : Beachten Sie, dass selbst eine Funktion von bis . Es ist im Grunde die Dichte eines dimensionalen Gaußschen mit Mittelwert und Kovarianz ; nur die normalisierende Konstante ist anders. Also wenn wir nehmen R dR Φ σ ( x ) = ( 2 σ ) dL2(Rd)RdR& Phi;& sgr;(x)RdRdx1

Φσ(x)=(2σ)d2πd4e2σ2x22.
Φσ(x)RdRdxΦ(x),Φ(y)L2=[Φ(x)](t)14σ2icht k ( x , y )
Φ(x),Φ(y)L2=[Φ(x)](t)[Φ(y)](t)dt,
wir nehmen das Produkt der Gaußschen Dichtefunktionen , die selbst eine gewisse Konstante mal einer Gaußschen Dichtefunktionen ist. Wenn Sie dieses Integral durch ausführen, ist die Konstante, die herausfällt, genau .tk(x,y)

Dies sind nicht die einzigen Einbettungen, die funktionieren.

Ein anderes basiert auf der Fourier-Transformation, die sich dem berühmten Artikel von Rahimi und Recht ( Random Features for Large-Scale Kernel Machines , NIPS 2007) sehr gut annähert.

Sie können dies auch mit Taylor-Reihen tun: effektiv die unendliche Version von Cotter, Keshet und Srebro, Explicit Approximations of the Gaussian Kernel , arXiv: 1109.4603 .


1
Douglas Zare gab eine 1d-Version der "direkteren" Einbettung in einen interessanten Thread an .
Dougal

Hier finden Sie eine 'intuitivere' Erklärung dafür, dass das auf eine Dimension abgebildet werden kann, die der Größe des Trainingsmusters entspricht, auch für ein unbegrenztes Trainingsmuster: stats.stackexchange.com/questions/80398/…Φ

6

Es scheint mir, dass Ihre zweite Gleichung nur dann wahr sein wird, wenn eine lineare Abbildung ist (und daher ein linearer Kern ist). Da der Gauß'sche Kern nicht linear ist, wird die Gleichheit nicht gelten (außer vielleicht in der Grenze, wenn auf Null geht).K σϕKσ


Vielen Dank für Ihre Antwort. Wenn , vergrößert sich die Dimension der Gaußschen Kernelprojekte. Und von Ihrer Inspiration halte ich es jetzt nicht für gleich. Weil die Verwendung des Kernels nur die Situation handhabt, dass die lineare Klassifizierung nicht funktioniert. σ0
Vivian
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.