Warum muss ich bei der Verwendung von SVMs die Funktionen skalieren?

Gemäß der Dokumentation des StandardScaler- Objekts in scikit-learn:

Beispielsweise gehen viele Elemente, die in der Zielfunktion eines Lernalgorithmus verwendet werden (wie der RBF-Kernel von Support Vector Machines oder die L1- und L2-Regularisierer linearer Modelle), davon aus, dass alle Merkmale um 0 zentriert sind und eine Varianz in derselben Reihenfolge aufweisen. Wenn ein Merkmal eine um Größenordnungen größere Varianz aufweist als andere, kann dies die Zielfunktion dominieren und dazu führen, dass der Schätzer nicht wie erwartet korrekt von anderen Merkmalen lernen kann.

Ich sollte meine Funktionen vor der Klassifizierung skalieren. Gibt es eine einfache Möglichkeit zu zeigen, warum ich das tun sollte? Verweise auf wissenschaftliche Artikel wären noch besser. Ich habe bereits einen gefunden , aber es gibt wahrscheinlich viele andere.

— Scallywag
quelle

Antworten:

$\kappa(\mathbf{u},\mathbf{v}) = \exp(-\|\mathbf{u}-\mathbf{v}\|^2)$ $\gamma=1$

Gegeben sind 3 Merkmalsvektoren:

x_{1} = [1000, 1, 2]], x_{2} = [900, 1, 2]], x_{3} = [1050, - - 10, 20]] .

$\mathbf{x}_1 = [1000, 1, 2], \quad \mathbf{x}_2 = [900, 1, 2], \quad \mathbf{x}_3 = [1050, -10, 20].$

dann ist , das heißt ist angeblich ähnlicher wie als . $\kappa( \mathbf{x}_1, \mathbf{x}_2) = \exp(-10000) \ll \kappa(\mathbf{x}_1, \mathbf{x}_3) = \exp(-2905)$ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_2$

Die relativen Unterschiede zwischen und: $\mathbf{x}_1$

x_{2} \to [0,1, 0, 0]], x_{3} \to [0,05, - - 10, 10]] .

$\mathbf{x}_2 \rightarrow [0.1, 0, 0],\quad \mathbf{x}_3 \rightarrow [0.05, -10, 10].$

Ohne Skalierung schließen wir, dass ähnlicher ist als , obwohl die relativen Unterschiede pro Feature zwischen und sind viel größer als die von und . $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_2$ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_1$ $\mathbf{x}_2$

Mit anderen Worten, wenn Sie nicht alle Features auf vergleichbare Bereiche skalieren, dominieren die Features mit dem größten Bereich bei der Berechnung der Kernelmatrix vollständig.

Einfache Beispiele zur Veranschaulichung finden Sie im folgenden Dokument: Ein praktischer Leitfaden zur Unterstützung der Vektorklassifizierung (Abschnitt 2.2).

— Marc Claesen
quelle

Vielleicht möchten Sie auch die Regularisierung diskutieren: Die Skalierung der Gewichte hängt von der Skalierung der Eingaben ab ...

— Seanv507

Der Effekt der Regularisierung besteht darin, dass unterschiedliche Skalierungen unterschiedliche optimale implizieren , was zu diesem speziellen Problem etwas orthogonal ist.

C

$C$

— Marc Claesen

Aber es könnte tatsächlich sein, dass die Nähe entlang einer Dimension wichtiger ist. Das Ziel ist es also nicht, in allen Features die gleiche Varianz zu haben, sondern sie so zu skalieren, dass Entfernungen entlang jedes Features für die Aufgabe ungefähr die gleiche Bedeutung haben.

— Isarandi

@Marc Claesen: Wenn Ihre Variablen unterschiedliche Größenordnungen haben, haben Ihre Gewichte auch unterschiedliche Größenordnungen, und die l2-Norm konzentriert sich auf die Eingaben mit geringer Varianz und entsprechend großen Gewichten. Anders ausgedrückt, die Regularisierung der Gewichtsnorm stellt sicher, dass „kleine“ Eingaben geringe Auswirkungen haben. Dies ist nur dann sinnvoll, wenn Sie "klein" (über Ihre Eingaben hinweg) standardisiert haben, z. B. indem Sie Ihre Variablen normalisieren

— seanv507

@ seanv507, das nur für lineare SVM gilt.

— Marc Claesen

Es hängt davon ab, welchen Kernel Sie verwenden. Bei weitem am häufigsten verwendet (außer linear) ist der Gaußsche Kern, der die Form hat

f = e x p (\frac{- - | | x_{1} - - x_{2} | |^{2}}{2 σ^{2}})

$f = exp \left ( \frac{- || x{_{1}} - x{_{2}} || ^2 }{2\sigma ^2} \right )$

Eine SVM verwendet diese Funktion, um die Ähnlichkeit eines Punktes ( ) mit jedem anderen Punkt im Trainingssatz zu vergleichen, indem die Unterschiede wie folgt summiert werden: $x1$

(x_{1} - - l_{1})^{2} + (x_{2} - - l_{2})^{2} . . . + (x_{n} - - l_{n})^{2}

$(x{_{1}}-l{_{1}})^2+(x{_{2}}-l{_{2}})^2...+(x{_{n}}-l{_{n}})^2$

Dabei ist Ihr Beispiel und die Werte von sind die Orientierungspunkte. $x$ $l$

Wenn das Merkmal zwischen 0 und 50.000 liegt, während das Merkmal zwischen 0 und 0,01 liegt, können Sie sehen, dass diese Summe dominieren wird, während hat praktisch keine Auswirkungen. Aus diesem Grund ist es notwendig, die Merkmale zu skalieren, bevor der Kern angewendet wird. $x{_{1}}$ $x{_{2}}$ $x{_{1}}$ $x{_{2}}$

Wenn Sie mehr erfahren möchten, empfehle ich Modul 12 (Support Vector Machines) aus dem Stanford Online-Kurs für maschinelles Lernen bei Coursera (kostenlos und jederzeit verfügbar): https://www.coursera.org/course/ml

— ralph346526
quelle