Scharnierverlust im Vergleich zu Logistikverlust - Vor- und Nachteilen / Einschränkungen


14

Der Scharnierverlust kann mit und der logarithmische Verlust mit log ( 1 + exp ( - y i w T x i ) ) definiert werden.max(0,1yiwTxi)log(1+exp(yiwTxi))

Ich habe folgende Fragen:

  1. Gibt es Nachteile des Scharnierverlusts (z. B. empfindlich gegenüber Ausreißern, wie in http://www.unc.edu/~yfliu/papers/rsvm.pdf erwähnt )?

  2. Was sind die Unterschiede, Vor- und Nachteile der einen gegenüber der anderen?

Antworten:


22

Die logarithmische Verlustminimierung führt zu gut verhaltenen probabilistischen Ergebnissen.

Scharnierverlust führt zu einer gewissen (nicht garantierten) Sparsamkeit des Duals, hilft jedoch bei der Wahrscheinlichkeitsschätzung nicht. Stattdessen werden Fehlklassifizierungen bestraft (deshalb ist es so nützlich, die Margen zu bestimmen).

Also, zusammenfassend:

  • Logarithmischer Verlust führt zu einer besseren Wahrscheinlichkeitsschätzung auf Kosten der Genauigkeit

  • Der Verlust des Scharniers führt zu einer höheren Genauigkeit und einer geringeren Wahrscheinlichkeit


1
+1. Die Minimierung des logistischen Verlusts entspricht der Maximierung der Binomialwahrscheinlichkeit. Die Minimierung des Quadratfehlerverlusts entspricht der Maximierung der Gaußschen Wahrscheinlichkeit (es handelt sich lediglich um eine OLS-Regression; bei einer Klassifizierung in zwei Klassen entspricht dies tatsächlich der LDA). Wissen Sie, ob die Minimierung des Scharnierverlusts einer Maximierung einer anderen Wahrscheinlichkeit entspricht? Dh gibt es ein probabilistisches Modell, das dem Scharnierverlust entspricht?
Amöbe sagt Reinstate Monica

1
@amoeba Es ist eine interessante Frage, aber SVMs basieren von Natur aus nicht auf statistischen Modellen. Nachdem dies gesagt wurde, überprüfen Sie diese Antwort von Glen_b. Der ganze Thread dreht sich darum, aber stattdessen für das epsilon-unempfindliche Scharnier.
Firebug

4

@Firebug hatte eine gute Antwort (+1). Tatsächlich hatte ich hier eine ähnliche Frage.

Was sind die Auswirkungen der Auswahl verschiedener Verlustfunktionen bei der Klassifizierung auf einen ungefähren 0-1-Verlust?

Ich möchte nur noch einen weiteren großen Vorteil des logistischen Verlusts hinzufügen: die probabilistische Interpretation. Ein Beispiel finden Sie hier

Insbesondere ist die logistische Regression ein klassisches Modell in der Statistikliteratur. (Siehe, Was bedeutet der Name "Logistische Regression" für die Benennung ? ) Es gibt viele wichtige Konzepte im Zusammenhang mit logistischen Verlusten, z. Hier sind einige verwandte Diskussionen.

Likelihood-Ratio-Test in R

Warum heißt logistische Regression nicht logistische Klassifizierung?

Gibt es eine Annahme zur logistischen Regression?

Unterschied zwischen logit- und probit-Modellen


1

Da @ hxd1011 einen Vorteil der Kreuzentropie hinzugefügt hat, füge ich einen Nachteil hinzu.

Der Querentropiefehler ist eines von vielen Abstandsmaßen zwischen Wahrscheinlichkeitsverteilungen. Ein Nachteil ist jedoch, dass Verteilungen mit langen Schwänzen schlecht modelliert werden können, wenn den unwahrscheinlichen Ereignissen zu viel Gewicht beigemessen wird.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.