Was sind die Auswirkungen der Auswahl verschiedener Verlustfunktionen bei der Klassifizierung auf einen ungefähren Verlust von 0 bis 1?

Wir wissen, dass einige objektive Funktionen einfacher zu optimieren sind und andere schwierig. Und es gibt viele Verlustfunktionen, die wir verwenden möchten, die aber schwer zu verwenden sind, zum Beispiel 0-1-Verlust. Wir finden also einige Proxy- Verlust-Funktionen, um die Arbeit zu erledigen. Zum Beispiel verwenden wir den Scharnierverlust oder den logistischen Verlust, um den 0-1-Verlust zu "approximieren".

Die folgende Handlung stammt aus Chris Bishops PRML-Buch . Der Scharnierverlust ist in blau, der Logverlust in rot, der Quadratverlust in grün und der Fehler 0/1 in schwarz dargestellt.

Ich verstehe den Grund, warum wir ein solches Design haben (für Scharnier- und Logistikverlust), ist, dass wir wollen, dass die Zielfunktion konvex ist.

Durch die Betrachtung von Scharnierverlust und logistischem Verlust werden stark falsch klassifizierte Instanzen stärker benachteiligt , und interessanterweise werden auch korrekt klassifizierte Instanzen benachteiligt, wenn sie schwach klassifiziert sind . Es ist ein wirklich seltsames Design.

Meine Frage ist, zu welchen Preisen wir verschiedene "Proxy-Loss-Funktionen" wie Scharnierverlust und Logistikverlust einsetzen müssen.

— Haitao Du
quelle

Bei der Regression ist die Auswahl des quadratischen Verlusts im Vergleich zum absoluten Verlust einfacher zu optimieren. Der Quadratverlust ist jedoch empfindlicher gegenüber Ausreißern. Sollte es also auch sensibel auf bestimmte Arten der Daten ankommen?

— Haitao Du

Eine einfachere Lösung besteht darin, optimale vorhergesagte Wahrscheinlichkeiten zu entwickeln, die keine Nutzfunktion erfordern. Die Utility / Loss-Funktion kann später vom eigentlichen Entscheider angewendet werden. Die Klassifizierung ist gleichbedeutend mit der Entscheidung des Entscheidungsträgers und erfordert zu viel Vorwissen.

— Frank Harrell

@FrankHarrell Danke, und ich verwende den Ansatz, den Sie bei der Arbeit erwähnt haben, bei dem wir Vorhersage und Geschäftsbetrieb trennen. Dies ist jedoch immer noch nicht als Ganzes optimiert, sondern eine gierige, stufenweise lokale Lösung, oder? Ist es eine "Straussenpolitik"?

— Haitao Du

Es kann nicht zu optimalen Entscheidungen führen. Die Verlust- / Nutzen- / Kostenfunktion stammt nicht aus den Modellvorhersagen.

— Frank Harrell

+1. Die Minimierung des logistischen Verlusts entspricht der Maximierung der Binomialwahrscheinlichkeit. Die Minimierung des Quadratfehlerverlusts entspricht der Maximierung der Gaußschen Wahrscheinlichkeit (es handelt sich lediglich um eine OLS-Regression; bei einer Klassifizierung in zwei Klassen entspricht dies tatsächlich der LDA). Wissen Sie, ob die Minimierung des Scharnierverlusts einer Maximierung einer anderen Wahrscheinlichkeit entspricht? Dh gibt es ein probabilistisches Modell, das dem Scharnierverlust entspricht?

— Amöbe sagt Reinstate Monica

Antworten:

Einige meiner Gedanken sind jedoch möglicherweise nicht richtig.

Ich verstehe, dass wir ein solches Design haben (für Scharnier- und Logistikverlust), weil wir wollen, dass die Zielfunktion konvex ist.

Konvexität ist sicherlich eine schöne Eigenschaft, aber ich denke, der wichtigste Grund ist, dass wir wollen, dass die objektive Funktion Ableitungen ungleich Null aufweist , damit wir die Ableitungen verwenden können, um sie zu lösen. Die Zielfunktion kann nicht konvex sein. In diesem Fall halten wir oft nur an einigen lokalen Optima oder Sattelpunkten an.

und interessanterweise werden korrekt klassifizierte Instanzen auch dann bestraft, wenn sie schwach klassifiziert sind. Es ist ein wirklich seltsames Design.

Ich denke, ein solches Design rät dem Modell, nicht nur die richtigen Vorhersagen zu treffen, sondern auch zuversichtlich mit den Vorhersagen umzugehen. Wenn wir nicht möchten, dass korrekt klassifizierte Instanzen bestraft werden, können wir beispielsweise den Scharnierverlust (blau) um 1 nach links verschieben, damit sie keinen Verlust mehr erleiden. Aber ich glaube, das führt in der Praxis oft zu schlechteren Ergebnissen.

Was sind die Preise, die wir für die Verwendung verschiedener "Proxy-Loss-Funktionen" wie Scharnierverlust und logistischer Verlust zahlen müssen?

IMO Indem wir verschiedene Verlustfunktionen auswählen, bringen wir verschiedene Annahmen in das Modell ein. Beispielsweise nimmt der logistische Regressionsverlust (rot) eine Bernoulli-Verteilung an, der MSE-Verlust (grün) ein Gaußsches Rauschen.

In Anlehnung an das Beispiel der kleinsten Fehlerquadrate im Vergleich zur logistischen Regression in PRML habe ich zum Vergleich den Scharnierverlust hinzugefügt.

Wie in der Abbildung gezeigt, haben Scharnierverlust und logistische Regression / Kreuzentropie / log-Wahrscheinlichkeit / Softplus sehr nahe beieinander liegende Ergebnisse, da ihre objektiven Funktionen nahe beieinander liegen (Abbildung unten), während MSE im Allgemeinen empfindlicher gegenüber Ausreißern ist. Scharnierverlust hat nicht immer eine eindeutige Lösung, da er nicht streng konvex ist.

Eine wichtige Eigenschaft des Scharnierverlusts ist jedoch, dass Datenpunkte, die weit von der Entscheidungsgrenze entfernt sind, nichts zum Verlust beitragen. Die Lösung ist dieselbe, wenn diese Punkte entfernt werden.

Die verbleibenden Punkte werden im Kontext von SVM als Unterstützungsvektoren bezeichnet. Während SVM einen Regularizer-Term verwendet, um die maximale Margin-Eigenschaft und eine einzigartige Lösung sicherzustellen.

— dontloo
quelle

Danke für die Antwort. Ist es möglich, einige Demos zu erstellen, um die Auswirkungen für unterschiedliche Verluste intuitiv darzustellen? Genauso wie wir die Auswirkung von Regressionsausreißern anhand des quadratischen Verlusts im Vergleich zum geringsten absoluten Verlust zeigen.

— Haitao Du

@ hxd1011 Gern geschehen, ich werde später versuchen, einige Demos hinzuzufügen.

— Dontloo

Gelenkverlust ist konvex ...

— Mustafa S Eisa

@ MustafaM.Eisa richtig, danke, ich meinte nicht streng konvex ..

— Dontloo

@dontloo tolle Simulation! Vielen Dank. Ich werde später auch versuchen, einige meiner Simulationen hochzuladen.

— Haitao Du

Poste eine späte Antwort, da es eine sehr einfache Antwort gibt, die noch nicht erwähnt wurde.

Was sind die Preise, die wir für die Verwendung verschiedener "Proxy-Loss-Funktionen" wie Scharnierverlust und logistischer Verlust zahlen müssen?

Wenn Sie die nicht-konvexe 0-1-Verlustfunktion durch einen konvexen Ersatz (z. B. Scharnierverlust) ersetzen , lösen Sie jetzt tatsächlich ein anderes Problem als das, das Sie lösen wollten (um die Anzahl der Klassifizierungsfehler zu minimieren). So können Sie gewinnen Rechen Lenkbarkeit (wird das Problem konvex, dh Sie es mit Werkzeugen von konvexer Optimierung effizient lösen können), aber im allgemeinen Fall gibt es eigentlich keine Möglichkeit , den Fehler des Klassifikators zu beziehen , dass mindernd einen „Proxy“ Verlust und die Fehler des Klassifikators, der den 0-1-Verlust minimiert . Wenn es Ihnen wirklich darum ging, die Anzahl der Fehlklassifizierungen zu minimieren, dann ist dies meiner Meinung nach ein sehr hoher Preis.

$\mathcal D$

— galoosh33
quelle

Idealerweise sollte Ihre Verlustfunktion den tatsächlichen Geschäftsverlust widerspiegeln. Wenn Sie beispielsweise beschädigte Waren klassifizieren, kann der Verlust der Fehlklassifizierung folgendermaßen aussehen:

Kennzeichnung beschädigter Waren, die nicht: entgangener Gewinn bei potenziellem Verkauf
Keine Kennzeichnung beschädigter Waren, die beschädigt wurden: Kosten für die Rücksendung

— Aksakal
quelle