Erstes Problem: Minimierung vonoder :∥w∥∥w∥2
Es ist richtig, dass man die Marge maximieren möchte. Dies geschieht tatsächlich durch Maximieren von . Dies wäre der "richtige" Weg, aber es ist ziemlich unpraktisch. Lassen Sie uns zuerst die , da es sich nur um eine Konstante handelt. Wenn nun maximal ist,muss so klein wie möglich sein. Wir können also die identische Lösung finden, indem wir minimieren .2∥w∥21∥w∥∥w∥ ∥w∥
∥w∥kann mit berechnet werden . Da die Quadratwurzel eine monotone Funktion ist, maximiert jeder Punkt der maximiert, auch . Um diesen Punkt zu finden, müssen wir also nicht die Quadratwurzel berechnen und können minimieren .wTw−−−−√xf(x)−−−−√f(x)xwTw=∥w∥2
Schließlich multiplizieren wir, da wir häufig Ableitungen berechnen müssen, den gesamten Ausdruck mit einem Faktor . Dies geschieht sehr oft, denn wenn wir und damit ableiten . So erhalten wir das Problem: Minimieren Sie .12ddxx2=2xddx12x2=x12∥w∥2
tl; dr : ja, minimieren anstelle von würde funktionieren.∥w∥12∥w∥2
Zweites Problem: oder :≥0≥1
Wie bereits in der Frage angegeben, bedeutet , dass sich der Punkt auf der richtigen Seite der Hyperebene befinden muss. Dies reicht jedoch nicht aus: Wir möchten, dass der Punkt mindestens so weit wie der Rand entfernt ist (dann ist der Punkt ein Unterstützungsvektor) oder sogar noch weiter entfernt.yi(⟨w,xi⟩+b)≥0
Denken Sie an die Definition der Hyperebene.
H={x∣⟨w,x⟩+b=0} .
Diese Beschreibung ist jedoch nicht eindeutig: Wenn wir und mit einer Konstanten skalieren , erhalten wir eine äquivalente Beschreibung dieser Hyperebene. Um sicherzustellen, dass unser Optimierungsalgorithmus und nicht nur um konstante Faktoren skaliert , um einen höheren Rand zu erhalten, definieren wir, dass der Abstand eines Unterstützungsvektors von der Hyperebene immer beträgt , dh der Rand ist . Ein Unterstützungsvektor ist somit gekennzeichnet durch .wbcwb11∥w∥yi(⟨w,xi⟩+b)=1
Wie bereits erwähnt, möchten wir, dass alle Punkte entweder ein Unterstützungsvektor oder sogar weiter von der Hyperebene entfernt sind. Im Training fügen wir daher die Einschränkung , die genau dies sicherstellt.yi(⟨w,xi⟩+b)≥1
tl; dr : Trainingspunkte müssen nicht nur korrekt sein, sie müssen am Rand oder weiter entfernt sein.