Beziehung zwischen KS, AUROC und Gini


11

Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert daran, wie die Beweise funktionieren. Ich kenne zum Beispiel Gini = 2AUROC-1, aber mein bester Beweis besteht darin, auf ein Diagramm zu zeigen. Ich interessiere mich für formale Beweise. Jede Hilfe wäre sehr dankbar!


1
Mit KS meinen Sie die Kolmogorov-Smirnov-Statistik? AUROC ist wahrscheinlich die Fläche unter der ROC-Kurve?
Nitesh

Es scheint, als wäre es ein guter Anfang, von Wikipedia aus zu beginnen und die Originalreferenzen durchzugehen.
LauriK

Antworten:


1

Der Wikipedia-Eintrag für die Betriebseigenschaft des Empfängers verweist auf dieses Papier für das Ergebnis Gini = 2AUROC-1: Hand, David J.; und Till, Robert J. (2001); Eine einfache Verallgemeinerung des Bereichs unter der ROC-Kurve für Klassifizierungsprobleme mehrerer Klassen, Machine Learning, 45, 171–186. Aber ich fürchte, ich habe keinen einfachen Zugang dazu, um zu sehen, wie nahe es dem kommt, was Sie wollen.


1
... und es kann ein nutzloses Ergebnis sein, da der Gini normalerweise auf Daten mit zwei kategorialen Beschriftungen angewendet wird, während AUROC auf numerische Rangordnungsdaten + eine binäre Beschriftung angewendet wird. Sie können übereinstimmen nur , wenn Ihr Ranking ist binär? In diesem Fall wäre es nicht sehr sinnvoll, AUROC überhaupt zu verwenden, da es sich um eine 3-Punkt-Kurve mit nur 2 Freiheitsgraden handelt ... (Ich habe dieses Ergebnis nicht überprüft, heutzutage zu viel Papier-Spam auf Wikipedia.)
Hat aufgehört - Anony-Mousse

0

Laut der Arbeit (Adeodato, PJ L und Melo, SB 2016) besteht eine lineare Beziehung zwischen der Fläche unter der KS-Kurve (AUKS) und der Fläche unter der ROC-Kurve (AUROC), nämlich:

AUROC=0.5+AUKS

Der Äquivalenznachweis ist im Papier enthalten.


0

Das Ergebnis Gini = 2 * AUROC-1 ist schwer zu beweisen, da es nicht unbedingt wahr ist. Der Wikipedia-Artikel über die Betriebskennlinie des Empfängers gibt das Ergebnis als Definition von Gini an, und der Artikel von Hand und Till (zitiert von nealmcb) besagt lediglich, dass die grafische Definition von Gini unter Verwendung der ROC-Kurve zu dieser Formel führt.

Der Haken ist, dass diese Definition von Gini in der Gemeinschaft des maschinellen Lernens und des Ingenieurwesens verwendet wird, aber eine andere Definition von Ökonomen und Demografen verwendet wird (zurück zu Ginis Originalarbeit). Der Wikipedia-Artikel über den Gini-Koeffizienten beschreibt diese Definition basierend auf der Lorenz-Kurve.

Ein Artikel von Schechtman & Schechtman (2016) beschreibt die Beziehung zwischen AUC und der ursprünglichen Gini-Definition. Um jedoch zu sehen, dass sie nicht exakt gleich sein können, nehmen wir an, dass der Anteil der Ereignisse p ist und wir einen perfekten Klassifikator haben. Die ROC-Kurve verläuft dann durch die obere linke Ecke und AUCROC ist 1. Die (gespiegelte) Lorenz-Kurve verläuft jedoch von (0,0) nach ( p , 1) nach (1,1), und der Gini der Ökonomen ist 1 - p / 2, was fast, aber nicht genau 1 ist.

Wenn Ereignisse selten sind, ist die Beziehung Gini = 2 * AUROC-1 unter Verwendung der ursprünglichen Definition von Gini nahezu, aber nicht genau wahr. Die Beziehung ist nur dann genau wahr, wenn Gini neu definiert wird, um sie wahr zu machen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.