Wo genau

Ich habe verstanden, dass SVMs binäre, lineare Klassifizierer sind (ohne den Kernel-Trick). Sie haben Trainingsdaten $(x_i, y_i)$ wo $x_i$ ist ein Vektor und $y_i \in \{-1, 1\}$ ist die Klasse. Da es sich um binäre lineare Klassifikatoren handelt, besteht die Aufgabe darin, eine Hyperebene zu finden, die die Datenpunkte mit der Bezeichnung trennt $-1$ von den Datenpunkten mit dem Etikett $+1$ .

Nehmen wir vorerst an, dass die Datenpunkte linear trennbar sind und wir keine Slack-Variablen benötigen.

Jetzt habe ich gelesen, dass das Trainingsproblem nun das folgende Optimierungsproblem ist:

${\min_{w, b} \frac{1}{2} \|w\|^2}$
st $y_i ( \langle w, x_i \rangle + b) \geq 1$

Ich glaube, ich habe verstanden, dass das Minimieren von $\|w\|^2$ das Maximieren des Spielraums bedeutet (ich verstehe jedoch nicht, warum es hier das Quadrat ist. Würde sich etwas ändern, wenn man versuchen würde, zu minimieren $\|w\|$ ?).

Ich habe auch verstanden, dass $y_i ( \langle w, x_i \rangle + b) \geq 0$ bedeutet, dass das Modell in den Trainingsdaten korrekt sein muss. Es gibt jedoch eine $1$ und keine $0$ . Warum?

machine-learning svm

— Martin Thoma
quelle

In der Mathematik minimieren (Ableitung = 0) stellt sich heraus, dass das Quadrat wahrscheinlich eine einfachere Gleichung ist

— Paparazzo

Siehe auch: Alexander Ihler: Support Vector Machines (1): Lineare SVMs, Urform auf YouTube. 25.01.2015.

— Martin Thoma

Erstes Problem: Minimierung vonoder : $\|w\|$ $\|w\|^2$

Es ist richtig, dass man die Marge maximieren möchte. Dies geschieht tatsächlich durch Maximieren von . Dies wäre der "richtige" Weg, aber es ist ziemlich unpraktisch. Lassen Sie uns zuerst die , da es sich nur um eine Konstante handelt. Wenn nun maximal ist,muss so klein wie möglich sein. Wir können also die identische Lösung finden, indem wir minimieren . $\frac{2}{\|w\|}$ $2$ $\frac{1}{\|w\|}$ $\|w\|$ $\|w\|$

$\|w\|$ kann mit berechnet werden . Da die Quadratwurzel eine monotone Funktion ist, maximiert jeder Punkt der maximiert, auch . Um diesen Punkt zu finden, müssen wir also nicht die Quadratwurzel berechnen und können minimieren . $\sqrt{w^T w}$ $x$ $\sqrt{f(x)}$ $f(x)$ $x$ $w^T w = \|w\|^2$

Schließlich multiplizieren wir, da wir häufig Ableitungen berechnen müssen, den gesamten Ausdruck mit einem Faktor . Dies geschieht sehr oft, denn wenn wir und damit ableiten . So erhalten wir das Problem: Minimieren Sie . $\frac{1}{2}$ $\frac{d}{dx} x^2 = 2 x$ $\frac{d}{dx} \frac{1}{2} x^2 = x$ $\frac{1}{2} \|w\|^2$

tl; dr : ja, minimieren anstelle von würde funktionieren. $\|w\|$ $\frac{1}{2} \|w\|^2$

Zweites Problem: oder : $\geq 0$ $\geq 1$

Wie bereits in der Frage angegeben, bedeutet , dass sich der Punkt auf der richtigen Seite der Hyperebene befinden muss. Dies reicht jedoch nicht aus: Wir möchten, dass der Punkt mindestens so weit wie der Rand entfernt ist (dann ist der Punkt ein Unterstützungsvektor) oder sogar noch weiter entfernt. $y_i \left( \langle w,x_i \rangle + b \right) \geq 0$

Denken Sie an die Definition der Hyperebene.

$\mathcal{H} = \{ x \mid \langle w,x \rangle + b = 0\}$ .

Diese Beschreibung ist jedoch nicht eindeutig: Wenn wir und mit einer Konstanten skalieren , erhalten wir eine äquivalente Beschreibung dieser Hyperebene. Um sicherzustellen, dass unser Optimierungsalgorithmus und nicht nur um konstante Faktoren skaliert , um einen höheren Rand zu erhalten, definieren wir, dass der Abstand eines Unterstützungsvektors von der Hyperebene immer beträgt , dh der Rand ist . Ein Unterstützungsvektor ist somit gekennzeichnet durch . $w$ $b$ $c$ $w$ $b$ $1$ $\frac{1}{\|w\|}$ $y_i \left( \langle w,x_i \rangle + b \right) = 1$

Wie bereits erwähnt, möchten wir, dass alle Punkte entweder ein Unterstützungsvektor oder sogar weiter von der Hyperebene entfernt sind. Im Training fügen wir daher die Einschränkung , die genau dies sicherstellt. $y_i \left( \langle w,x_i \rangle + b \right) \geq 1$

tl; dr : Trainingspunkte müssen nicht nur korrekt sein, sie müssen am Rand oder weiter entfernt sein.

— hbaderts
quelle

Nur um zu überprüfen, ob ich es verstanden habe: Anstatt schreiben, könnten wir auch eine beliebige Konstante und schreiben , wobei ?

\geq 1

$\geq 1$

ϵ

$\epsilon$

\geq ϵ

$\geq \epsilon$

ϵ > 0

$\epsilon > 0$

— Martin Thoma

Im Prinzip ja. ZB in Soft-Marge SVMs (wo man für einige Fehlklassifikationen oder Punkte innerhalb des Randes erlauben), verwenden Sie , so dass Sie sein können vom Rand. Natürlich brauchen Sie dann eine Strafe, die die meisten dazu , Null oder zumindest sehr niedrig zu sein.

\geq 1 - ξ_{i}

$\geq 1-\xi_i$

ξ_{i}

$\xi_i$

ξ_{i}

$\xi_i$

— Hbaderts

Ich denke, im obigen Kommentar hat Martin nicht nach dem Fall von weichen Rändern gefragt, bei denen Sie ein hinzufügen , um einige Punkte zu lassen, sondern nur nach dem, was passiert, wenn Sie durch eine andere positive Konstante ersetzen . Ich glaube , das Ergebnis in diesem Fall wäre das gleiche (dh Sie die gleiche Trennebene finden würde) , aber würde so skaliert werden , dass die Marge wäre statt von

ξ_{i}

$\xi_i$

1

$1$

ϵ

$\epsilon$

w

$w$

\frac{2 ϵ}{‖ w ‖}

$\frac{2 \epsilon}{\|w\|}$

\frac{2}{‖ w ‖}

$\frac{2}{\|w\|}$

— Tim Goodman

Dies liegt daran, dass eine Ebene senkrecht zu und vom Ursprung um in Richtung versetzt ist. Und ebenso definiert eine Ebene orthogonal zu und versetzt vom Ursprung um . Der Abstand zwischen den beiden Ebenen beträgt also

⟨ w, x ⟩ + b = ϵ

$\langle w, x \rangle + b = \epsilon$

w

$w$

\frac{ϵ - b}{‖ w ‖}

$\frac{\epsilon - b}{\|w\|}$

w

$w$

- (⟨ w, x ⟩ + b) = ϵ

$-(\langle w, x \rangle + b) = \epsilon$

w

$w$

\frac{- ϵ - b}{‖ w ‖}

$\frac{-\epsilon - b}{\|w\|}$

\frac{ϵ - b}{‖ w ‖} - \frac{- ϵ - b}{‖ w ‖} = \frac{2 ϵ}{‖ w ‖}

$\frac{\epsilon - b}{\|w\|} - \frac{-\epsilon - b}{\|w\|} = \frac{2 \epsilon}{\|w\|}$

— Tim Goodman