Ich denke, der Schlüssel zur Magie ist Geschmeidigkeit. Meine lange Antwort, die folgt, ist einfach, über diese Glätte zu erklären. Es kann eine Antwort sein oder auch nicht, die Sie erwarten.
Kurze Antwort:
Bei einem positiv definierten Kernel existiert der entsprechende Funktionsraum . Eigenschaften von Funktionen werden vom Kernel bestimmt. Es stellt sich heraus, dass wenn ein Gaußscher Kernel ist, die Funktionen in sehr glatt sind. Eine gelernte Funktion (z. B. eine Regressionsfunktion, Hauptkomponenten in RKHS wie in Kernel-PCA) ist also sehr glatt. Normalerweise ist die Annahme der Glätte für die meisten Datensätze, die wir behandeln möchten, sinnvoll. Dies erklärt, warum ein Gaußscher Kern magisch ist.kHkH
Lange Antwort, warum ein Gauß-Kernel reibungslose Funktionen bietet:
Ein positiver bestimmter Kernel definiert (implizit) ein inneres Produkt
für den aus Ihrer Eingabe konstruierten Merkmalsvektor und
ist ein Hilbert-Raum. Die Notation
bedeutet ein inneres Produkt zwischen und . Für unseren Zweck können Sie sich vorstellen, dass der übliche euklidische Raum ist, aber möglicherweise mit einer unendlichen Anzahl von Dimensionen. Stellen Sie sich den üblichen Vektor vor, der unendlich lang ist wiek(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH⟨ϕ(x),ϕ(y)⟩ϕ(x)ϕ(y)Hϕ(x)=(ϕ1(x),ϕ2(x),…). In Kernel-Methoden ist ein Funktionsraum, der als reproduzierender Kernel-Hilbert-Raum (RKHS) bezeichnet wird. Dieser Raum hat eine spezielle Eigenschaft namens "reproducing property", nämlich . Dies besagt, dass Sie zur Auswertung von zunächst einen Merkmalsvektor (unendlich lang wie erwähnt) für konstruieren . Dann konstruieren Sie Ihren Merkmalsvektor für mit (unendlich lang). Die Bewertung von wird gegeben, indem ein inneres Produkt der beiden genommen wird. Offensichtlich wird in der Praxis niemand einen unendlich langen Vektor konstruieren. Da wir uns nur um sein inneres Produkt kümmern, werten wir den Kernel direkt ausHf(x)=⟨f,ϕ(x)⟩f(x)fxϕ(x)f(x)k. Das Umgehen der Berechnung expliziter Merkmale und das direkte Berechnen des inneren Produkts wird als "Kernel-Trick" bezeichnet.
Was sind die Features?
Ich sagte immer wieder features ohne anzugeben, was sie sind. Bei einem Kernel sind die Funktionen nicht eindeutig. Aber
ist eindeutig bestimmt. Betrachten wir zur Erläuterung der Glätte der Funktionen die Fourier-Merkmale. Nehmen Sie an, dass der Kernel eine Übersetzungsinvariante ist , dh
dh der Kernel hängt nur vom Unterschied der beiden Argumente ab. Der Gaußsche Kernel hat diese Eigenschaft. Es sei die Fourier-Transformation von .ϕ1(x),ϕ2(x),…⟨ φ ( x ) , φ ( y ) ⟩ k k ( x , y ) = k ( x - y ) k kk⟨ϕ(x),ϕ(y)⟩kk(x,y)=k(x−y)k^k
In diesem Fourier-Standpunkt sind die Merkmale von
gegeben durch . Dies bedeutet, dass die Merkmalsdarstellung Ihrer Funktion
durch ihre Fouriertransformation geteilt durch die Fouriertransformation des Kernels . Die Merkmals Darstellung , welches
wird ,
wo . Man kann zeigen, dass die Reproduktionseigenschaft hält (eine Übung für die Leser).f : = ( ⋯ , f l / √ffkxφ(x)(⋯,√f:=(⋯,f^l/k^l−−√,⋯)fkxϕ(x)i=√(⋯,k^l−−√exp(−ilx),⋯)i=−1−−−√
Wie in jedem Hilbert-Raum müssen alle zum Raum gehörenden Elemente eine endliche Norm haben. Betrachten wir die quadratische Norm eines :f∈H
∥f∥2H=⟨f,f⟩H=∑∞l=−∞f^2lk^l.
Wann ist diese Norm endlich, dh gehört zum Raum? Es ist, wenn schneller fällt als so dass die Summe konvergiert. Nun ist die Fouriertransformation eines Gaußschen Kernelsff^2lk^l k(x,y)=exp(−∥x−y∥2σ2)
ist ein weiterer Gaußscher Wert, bei dem mit exponentiell schnell abnimmt . Wenn also in diesem Raum liegen soll, muss seine Fouriertransformation noch schneller abfallen als die von . Dies bedeutet, dass die Funktion effektiv nur wenige Niederfrequenzkomponenten mit hohen Gewichten aufweist. Ein Signal mit nur Niederfrequenzkomponenten wackelt nicht viel. Dies erklärt, warum ein Gauß-Kernel eine reibungslose Funktion bietet.k^llfk
Extra: Was ist mit einem Laplace-Kernel?
Wenn Sie einen Laplace-Kernel , ist
seine Fourier-Transformation eine Cauchy-Verteilung, die viel langsamer abfällt als die Exponentialverteilung Funktion in der Fourier-Transformation eines Gaußschen Kernels. Dies bedeutet, dass eine Funktion mehr Hochfrequenzkomponenten hat. Infolgedessen ist die von einem Laplace-Kernel gegebene Funktion "rauer" als die von einem Gaußschen Kernel gegebene.k(x,y)=exp(−∥x−y∥σ)f
Was ist eine Eigenschaft des Gaußschen Kernels, die andere Kernel nicht haben?
Unabhängig von der Gaußschen Breite ist eine Eigenschaft, dass der Gaußsche Kern "universal" ist. Intuitiv bedeutet dies, dass bei gegebener begrenzter stetiger Funktion (willkürlich) eine Funktion so dass und
nahe beieinander liegen (im Sinne von bis zu beliebiger Genauigkeit erforderlich. Grundsätzlich bedeutet dies, dass der Gaußsche Kern Funktionen liefert, die beliebig gut "schöne" (begrenzte, kontinuierliche) Funktionen approximieren können. Gauß- und Laplace-Kernel sind universell. Ein Polynomkern zum Beispiel ist es nicht.gf∈Hfg∥⋅∥∞)
Warum setzen wir die Norm nicht beispielsweise durch ein Cauchy-PDF und erwarten die gleichen Ergebnisse?
Im Allgemeinen können Sie alles tun, was Sie möchten, solange das resultierende
eindeutig positiv ist. Positive Bestimmtheit ist definiert als
für alle , und alle
(Menge natürlicher Zahlen) . Wenn nicht positiv definit ist, dann entspricht es keinem inneren Produktraum. Die gesamte Analyse wird unterbrochen, da Sie nicht einmal wie erwähnt über einen Funktionsbereich verfügen
. Trotzdem kann es empirisch funktionieren. Zum Beispiel der hyperbolische Tangenskern (siehe Nummer 7 auf dieser Seite )k∑Ni=1∑Nj=1k(xi,xj)αiαj>0αi∈R{xi}Ni=1N∈NkH
k(x,y)=tanh(αx⊤y+c)
die sigmoide Aktivierungseinheiten in neuronalen Netzen imitieren soll, ist nur für einige Einstellungen von und positiv bestimmt . Trotzdem wurde berichtet, dass es in der Praxis funktioniert.αc
Was ist mit anderen Funktionen?
Ich sagte, Features sind nicht einzigartig. Für den Gaußschen Kernel bietet die Mercer-Erweiterung eine weitere Reihe von Funktionen . Siehe Abschnitt 4.3.1 des berühmten Gaußschen Prozessbuchs . In diesem Fall sind die Merkmale Hermite-Polynome, die mit bewertet werden .ϕ(x)x