Wie von highBandwidth vorgeschlagen, hängt es davon ab, ob Sie eine lineare oder eine nichtlineare SVM verwenden (da ein Kernel nicht verwendet wird, ist er eher ein linearer Klassifikator mit maximaler Marge als eine SVM).
Ein linearer Klassifizierer mit maximaler Marge unterscheidet sich nicht von anderen linearen Klassifizierern darin, dass die Bereitstellung dieser Interaktionsterme die Leistung wahrscheinlich verbessert, wenn der Datenerzeugungsprozess bedeutet, dass Interaktionen zwischen den Attributen bestehen. Der lineare Klassifikator für die maximale Margin ähnelt eher der Ridge-Regression, mit einem geringfügigen Unterschied im Strafausdruck, der darauf abzielt, eine Überanpassung zu vermeiden (bei geeigneten Werten für den Regularisierungsparameter). In den meisten Fällen liefern die Ridge-Regression und der Klassifikator für die maximale Margin eine ähnliche Leistung.
Wenn Sie der Meinung sind, dass Interaktionsterme wahrscheinlich wichtig sind, können Sie sie mit dem Polynomkern K ( x , x ′ ) = ( x ⋅ x ′ + in den Merkmalsraum einer SVM einfügen , der ergibt In einem Merkmalsraum, in dem jede Achse ein Monom der Ordnung d oder weniger darstellt, beeinflusst der Parameter c die relative Gewichtung von Monomen unterschiedlicher Ordnung. Eine SVM mit einem Polynomkern entspricht also der Anpassung eines Polynommodells an den Attributraum, in dem diese Interaktionen implizit enthalten sind.K(x,x′)=(x⋅x′+c)ddc
Mit genügend Funktionen, jeder linearer Klassifizierer kann trivialerweise die Daten passen. IIRC und Punkte in "allgemeiner Position" in einem n - 1nn−1Der dimensionale Raum kann durch eine Hyperebene (vgl. VC-Dimension) zerschmettert (beliebig getrennt) werden. Dies führt im Allgemeinen zu einer starken Überanpassung und sollte daher vermieden werden. Der Punkt der maximalen Margin-Klassifizierung besteht darin, diese Überanpassung zu begrenzen, indem ein Strafausdruck hinzugefügt wird, der bedeutet, dass die größtmögliche Trennung erreicht wird (was die größte Abweichung von einem Trainingsbeispiel erfordern würde, um eine Fehlklassifizierung zu erzeugen). Dies bedeutet, dass Sie die Daten in einen sehr hochdimensionalen Raum (wo ein lineares Modell sehr leistungsfähig ist) umwandeln können, ohne zu viel Überanpassung zu verursachen.
Beachten Sie, dass einige Kernel zu einem unendlich dimensionalen Merkmalsraum führen, in dem eine "triviale" Klassifizierung für jedes endliche Trainingsmuster in der allgemeinen Position garantiert möglich ist. Beispielsweise ist der radiale Basisfunktionskern , wobei der Merkmalsraum die positive Orthante einer unendlich dimensionalen Hypersphäre ist. Solche Kernel machen die SVM zu einem universellen Approximator, der im Wesentlichen jede Entscheidungsgrenze darstellen kann.K(x,x′)=exp−γ∥x−x′∥2
Dies ist jedoch nur ein Teil der Geschichte. In der Praxis verwenden wir im Allgemeinen eine SVM mit weichen Margen, bei der die Margenbeschränkung verletzt werden darf, und es gibt einen Regularisierungsparameter, der den Kompromiss zwischen der Maximierung der Marge steuert (ein Strafbegriff, ähnlich dem in Ridge-Regression) und die Größe der Slack-Variablen (die dem Verlust der Trainingsstichprobe entspricht). Wir vermeiden dann eine Überanpassung, indem wir den Regularsation-Parameter optimieren, z. B. indem wir den Kreuzvalidierungsfehler (oder einen an den Auslassfehler gebundenen Fehler) minimieren, genau wie wir es im Fall der Ridge-Regression tun würden.
Während die SVM den Trainingssatz trivial klassifizieren kann , wird dies im Allgemeinen nur dann der Fall sein, wenn die Regularisierungs- und Kernelparameter falsch gewählt sind. Der Schlüssel, um mit jedem Kernelmodell gute Ergebnisse zu erzielen, liegt in der Auswahl eines geeigneten Kernels und der anschließenden Optimierung der Kernel- und Regularisierungsparameter, um eine Über- oder Unteranpassung der Daten zu vermeiden.