Mein Verständnis von SVM ist, dass es einer logistischen Regression (LR) sehr ähnlich ist, dh eine gewichtete Summe von Merkmalen wird an die Sigmoidfunktion übergeben, um eine Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse zu erhalten, jedoch anstelle des Verlusts der Kreuzentropie (logistisch) Funktion wird das Training mit dem Scharnierverlust durchgeführt. Der Vorteil der Verwendung des Scharnierverlusts besteht darin, dass verschiedene numerische Tricks ausgeführt werden können, um die Kernelisierung effizienter zu gestalten. Ein Nachteil ist jedoch, dass das resultierende Modell weniger Informationen enthält, als ein entsprechendes LR-Modell haben könnte. So wäre beispielsweise ohne Kernelisierung (unter Verwendung eines linearen Kernels) die SVM-Entscheidungsgrenze immer noch an derselben Stelle, an der LR eine Wahrscheinlichkeit von 0,5 ausgeben würde, ABER man kann nicht sagen, wie schnell die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse von der abfällt Entscheidungsgrenze.
Meine zwei Fragen sind:
- Ist meine Interpretation oben richtig?
- Wie macht es die Verwendung des Scharnierverlusts ungültig, SVM-Ergebnisse als Wahrscheinlichkeiten zu interpretieren?