K( x , x′) = ϕ ( x ) ⋅ ϕ ( x′)ϕ ( ⋅ ) ist eine Funktion, die die Eingangsvektoren in den Merkmalsraum abbildet.
Warum muss der Kernel also in einem bestimmten Funktionsbereich als inneres Produkt interpretierbar sein? Der Grund dafür ist, dass es für lineare Modelle (wie z. B. logistische Regression) viel einfacher ist, theoretische Grenzen für die Generalisierungsleistung festzulegen, als für nichtlineare Modelle (wie z. B. ein neuronales Netzwerk). Die meisten linearen Modelle können so geschrieben werden, dass die Eingabevektoren nur in Form innerer Produkte auftreten. Dies bedeutet, dass wir ein nichtlineares Modell erstellen können, indem wir ein lineares Modell im Kernel-Feature-Space erstellen. Dies ist eine feste Transformation der Daten, sodass alle theoretischen Leistungsgrenzen für das lineare Modell automatisch auf das neue nichtlineare Kernelmodell * angewendet werden.
Ein wichtiger Punkt, der auf den ersten Blick schwer zu erfassen ist, besteht darin, dass wir nicht an einen Funktionsbereich denken, der für unsere spezielle Anwendung gut wäre, und dann einen Kernel entwerfen, der diesen Funktionsbereich entstehen lässt. Im Allgemeinen erstellen wir eine gute Ähnlichkeitsmetrik und prüfen dann, ob es sich um einen Kernel handelt (der Test ist unkompliziert. Wenn eine Matrix von paarweisen Bewertungen der Kernelfunktion an Punkten in der allgemeinen Position positiv und definitiv ist, handelt es sich um einen gültigen Kernel). .
∗Wenn Sie die Kernelparameter optimieren, um die Generalisierungsleistung zu optimieren, z. B. durch Minimierung des Kreuzvalidierungsfehlers, ist dies natürlich keine feste Transformation mehr, sondern eine Transformation, die aus den Daten gelernt und ein Großteil der schönen Theorie gerade ungültig geworden ist . Während der Entwurf von Kernel-Methoden eine Menge beruhigender Theorien enthält, gelten die Grenzen in der Praxis im Allgemeinen nicht für praktische Anwendungen - aber es ist beruhigend, da es fundierte Prinzipien gibt, die das Modell stützen.