Welche Beziehung besteht zwischen einer SVM und einem Scharnierverlust?

Mein Kollege und ich versuchen, uns mit dem Unterschied zwischen logistischer Regression und einer SVM auseinanderzusetzen. Offensichtlich optimieren sie verschiedene Zielfunktionen. Ist eine SVM so einfach wie zu sagen, dass sie ein diskriminierender Klassifikator ist, der einfach den Scharnierverlust optimiert? Oder ist es komplexer als das? Wie kommen die Unterstützungsvektoren ins Spiel? Was ist mit den Slack-Variablen? Warum können Sie keine tiefen SVMs haben, wie Sie kein tiefes neuronales Netzwerk mit Sigmoid-Aktivierungsfunktionen haben können?

— Simon
quelle

Hier ist mein Versuch, Ihre Fragen zu beantworten:

Ist eine SVM so einfach wie zu sagen, dass sie ein diskriminierender Klassifikator ist, der einfach den Scharnierverlust optimiert? Oder ist es komplexer als das? Ja, das kannst du sagen. Vergessen Sie auch nicht, dass es auch das Modell reguliert. Ich würde nicht sagen, dass SVM komplexer ist, es ist jedoch wichtig zu erwähnen, dass alle diese Entscheidungen (z. B. Scharnierverlust und $L_2$ -Regulierung) präzise mathematische Interpretationen haben und nicht willkürlich sind. Das macht SVMs so beliebt und leistungsstark. Beispielsweise ist der Scharnierverlust eine kontinuierliche und konvexe Obergrenze für den Aufgabenverlust, der bei binären Klassifizierungsproblemen der $0/1$ Verlust ist. Beachten Sie, dass $0/1$ Verlust ist nicht konvex und diskontinuierlich. Die Konvexität des Scharnierverlusts macht das gesamte Trainingsziel von SVM konvex. Die Tatsache, dass es sich um eine Obergrenze für den Aufgabenverlust handelt, garantiert, dass der Minimierer der Grenze keinen schlechten Wert für den Aufgabenverlust hat. $L_2$ -Regularisierung kann geometrisch als Randgröße interpretiert werden.
$D$ $SV(D) \subseteq D$ $D$ $D$ $SV(D)$
$d(w, D)$ $w$ $D$ $w$ $D$ $d(w, D) = \min_{(x, y) \in D} y \frac{w^Tx}{||w||_2}$ $w$ $y \in \{+1, -1\}$
Warum kannst du keine tiefen SVMs haben? Das SVM-Ziel ist konvex. Genauer gesagt ist es stückweise quadratisch; liegt daran, dass der Regularisierer quadratisch ist und der Scharnierverlust stückweise linear ist. Die Trainingsziele in tiefen hierarchischen Modellen sind jedoch viel komplexer. Insbesondere sind sie nicht konvex. Natürlich kann man ein hierarchisches Unterscheidungsmodell mit Scharnierverlust und Regularisierung usw. , aber es würde nicht als SVM bezeichnet. Tatsächlich wird der Gelenkverlust üblicherweise in DNNs (Deep Neural Networks) für Klassifizierungsprobleme verwendet. $L_2$ $L_2$

— Sobi
quelle