Klassifikator-Leistungsmaß, das Sensitivität und Spezifität kombiniert?

Ich habe Daten mit 2 Klassen, für die ich eine Klassifizierung mit mehreren Klassifizierern durchführe. Und die Datensätze sind gut ausbalanciert. Bei der Beurteilung der Leistung der Klassifikatoren muss berücksichtigt werden, wie genau der Klassifikator nicht nur die wahren Positiven, sondern auch die wahren Negative bestimmt. Wenn ich Genauigkeit verwende und der Klassifikator auf Positives ausgerichtet ist und alles als positiv klassifiziert, erhalte ich daher eine Genauigkeit von etwa 50%, obwohl es nicht gelungen ist, echte Negative zu klassifizieren. Diese Eigenschaft wird auf Präzision und Rückruf erweitert, da sie sich nur auf eine Klasse und damit auf die F1-Punktzahl konzentrieren. (Dies ist, was ich auch aus diesem Artikel verstehe, zum Beispiel " Jenseits von Genauigkeit, F-Score und ROC: eine Familie diskriminierender Maßnahmen zur Leistungsbewertung ").

Daher kann ich Sensitivität und Spezifität (TPR und TNR) verwenden, um zu sehen, wie sich der Klassifikator für jede Klasse verhält, wobei ich diese Werte maximieren möchte.

Meine Frage ist, dass ich nach einer Kennzahl suche, die beide Werte zu einer sinnvollen Kennzahl kombiniert . Ich habe mir die in diesem Papier vorgesehenen Maßnahmen angesehen, fand sie jedoch nicht trivial. Und aufgrund meines Verständnisses habe ich mich gefragt, warum wir so etwas wie den F-Score nicht anwenden können, aber anstatt Präzision und Erinnerung zu verwenden, würde ich Sensitivität und Spezifität verwenden? Die Formel wäre also und mein Ziel wäre es, diese Maßnahme zu maximieren. Ich finde es sehr repräsentativ. Gibt es schon eine ähnliche Formel? Und würde das Sinn machen oder ist es überhaupt mathematisch sinnvoll?

mein Leistungsmaß = \frac{2 * Empfindlichkeit * Spezifität}{Empfindlichkeit + Spezifität}

$\text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}$

— Kalaji
quelle

Antworten:

Ich würde sagen, dass es möglicherweise keine bestimmte oder nur eine Maßnahme gibt, die Sie berücksichtigen sollten.

Als ich das letzte Mal eine probabilistische Klassifizierung durchgeführt habe, hatte ich ein R-Paket ROCR und explizite Kostenwerte für die False Positives und False Negatives.

Ich habe alle Grenzwerte von 0 bis 1 berücksichtigt und bei der Auswahl dieses Grenzwerts viele Maßnahmen wie die erwarteten Kosten verwendet. Natürlich hatte ich bereits ein AUC-Maß für das allgemeine Maß zur Klassifizierung der Genauigkeit. Für mich war dies jedoch nicht die einzige Möglichkeit.

Die Werte für die FP- und FN-Fälle müssen außerhalb Ihres speziellen Modells liegen. Werden diese möglicherweise von einem Fachexperten bereitgestellt?

Beispielsweise kann es bei der Analyse der Kundenabwanderung teurer sein, fälschlicherweise zu schließen, dass der Kunde nicht abwandert, aber auch, dass es teuer ist, die Preise für Dienstleistungen generell zu senken, ohne diese genau auf die richtigen Gruppen auszurichten.

-Analytiker

— Analytiker
quelle

Eigentlich ist es für meinen Fall ähnlich. Weil FP- und FN-Fälle in meinem Modell teuer werden. Am Ende habe ich etwas Ähnliches getan, wie Sie es vorgeschlagen haben, "mehrere Maßnahmen zu ergreifen". Ich habe den F-Score für jedes Klassenlabel berechnet und zur Bewertung der Modelle verwende ich beide Werte zusammen mit einer Kostenfunktion, die die Genauigkeit (für beide Klassen) verwendet, um den Gewinn zu berechnen und den Verlust aus FP- und FN-Fällen davon abzuziehen.

— Kalaji

Klassifizierungsgenauigkeit, Sensitivität, Spezifität und jede einfache Kombination davon sind unangemessene Bewertungsregeln. Das heißt, sie werden durch ein Scheinmodell optimiert. Wenn Sie sie verwenden, wählen Sie die falschen Funktionen aus, geben die falschen Gewichte an und treffen suboptimale Entscheidungen. Eine von vielen Möglichkeiten, wie Entscheidungen nicht optimal sind, ist das falsche Vertrauen, das Sie erhalten, wenn die vorhergesagten Wahrscheinlichkeiten nahe dem Schwellenwert liegen, der durch die Verwendung dieser Maßnahmen impliziert wird. Kurz gesagt, alles, was schief gehen kann, geht mit diesen Maßnahmen schief. Wenn Sie sie verwenden, um auch zwei gut sitzende Modelle zu vergleichen, werden Sie in die Irre geführt.

— Frank Harrell
quelle

Ich bin damit einverstanden, dass jedes generierte Modell ein "Scheinmodell" ist, wie Sie erwähnt haben. Trotzdem brauche ich eine Maßnahme, um die Qualität zu beurteilen und schließlich ein Modell auszuwählen. Angenommen, meine Features wurden bereits ausgewählt (es werden mehrere Datensätze mit unterschiedlichen Feature-Sets ausprobiert), und ich verwende eine 5-fache Kreuzvalidierung, um festzustellen, ob meine Klassifizierer die Daten überanpassen, sind diese einfachen "Bewertungsregeln" am häufigsten in der Literatur weit verbreitet. Welche anderen Maßnahmen würden Sie dann vorschlagen? Die meisten Maßnahmen beruhen auf Kombinationen dieser Werte, einschließlich LR +/-, ROC und AUC.

— Kalaji

R^{2}

$R^2$

Y

$Y$

Basierend auf meiner Lektüre gilt dies für den Fall, dass meine Modelle eher Wahrscheinlichkeiten als diskrete Werte generieren (dh eine Wahrscheinlichkeit, dass eine Instanz zur Klasse 0 oder 1 gehört, anstatt 0 oder 1 auszugeben). Dies hatte wiederum mit der Implementierung der Klassifizierer zu tun, z. B. für einen Naive Bayes-Klassifizierer, nicht jedoch für einen 1-NN-Klassifizierer. Beachten Sie, dass ich die Klassifizierer nicht implementiere. Ich verwende einige Klassifizierer in Weka, um meine Modelle zu generieren. Vielleicht bin ich hier etwas verwirrt. Vielen Dank.

— Kalaji

Wenn die von Ihnen verwendete Methode keine Wahrscheinlichkeiten ergibt, empfehle ich, eine andere Methode zu finden.

— Frank Harrell

Wenn es wohlbekannte Unterschiede zwischen den tatsächlichen Kosten für Präzision und Empfindlichkeit gibt (gilt nicht für den ursprünglichen Beitrag), warum sollten Sie diese vermeiden? Wäre ein voreingenommener Kreuzentropiefehler vorzuziehen (z. B. wird die Strafe für den Term (1-c) * log (1-p) verdoppelt)?

— Max Candocia