Ist f-Measure gleichbedeutend mit Genauigkeit?

Ich verstehe, dass das f-Maß (basierend auf Präzision und Rückruf) eine Schätzung der Genauigkeit eines Klassifikators ist. Außerdem wird f-Measure gegenüber Genauigkeit bevorzugt, wenn wir einen unausgeglichenen Datensatz haben. Ich habe eine einfache Frage (bei der es mehr um die Verwendung der richtigen Terminologie als um die Technologie geht). Ich habe einen unausgeglichenen Datensatz und verwende in meinen Experimenten f-Measure. Ich bin dabei, eine Arbeit zu schreiben, die NICHT für eine Konferenz über maschinelles Lernen / Data Mining bestimmt ist. Daher kann ich in diesem Zusammenhang synonym mit Genauigkeit auf f-Measure verweisen. Zum Beispiel habe ich ein f-Maß von 0,82. Kann ich dann sagen, dass mein Klassifikator 82% genaue Vorhersagen erzielt?

— Annamalai N.
quelle

Es ist besser, das f-Maß einzuführen, wenn Sie es verwenden. Das Ersetzen der beiden ist aus meiner Sicht nicht korrekt. In Ihrem Fall, wenn Ihre Genauigkeit 99% beträgt, erzielen Sie 99% genaue Vorhersagen, unabhängig davon, um welches f-Maß es sich handelt, und dies kann zu Fehlern bei den Lesern führen.

— AdrienNK

@AdrienNK: Eine Genauigkeit von 99% impliziert keine korrekten Vorhersagen von 99%, es sei denn, die relativen Häufigkeiten der Testfälle sind dieselben wie in der tatsächlichen Anwendungssituation.

— cbeleites unglücklich mit SX

@cbeleites Sie haben Recht, ich weiß, aber oft werden die Testfälle aus derselben Distribution ausgegeben (nun, vielleicht ist das die voreingenommene Ansicht, die ich davon habe, weil ich selten mit Daten arbeiten musste, bei denen das nicht der Fall war)

— AdrienNK

@AdrienNK: Ich bin analytischer Chemiker und arbeite an medizinischen Diagnosen. Die Prävalenz der betreffenden Krankheit kann zwischen verschiedenen Patientensubpopulationen um Größenordnungen variieren. Siehe z. B. die Diskussion der verschiedenen PPVs in der zweiten Hälfte dieses Artikels: nature.com/news/2011/110323/full/471428a.html

— cbeleites unzufrieden mit SX

Das war eine faszinierende Lektüre, danke, dass Sie mich darauf aufmerksam gemacht haben.

— AdrienNK

Antworten:

Erstens finde ich "Genauigkeit" manchmal etwas irreführend, da sie sich auf bestimmte Dinge bezieht:

Der Begriff Genauigkeit im Geneal für die Bewertung von Systemen oder Methoden (ich bin analytischer Chemiker) bezieht sich auf die Verzerrung von Vorhersagen, dh er beantwortet die Frage, wie gut Vorhersagen im Durchschnitt sind.

Wie Sie wissen, gibt es viele verschiedene Leistungsmaßstäbe, die unterschiedliche Leistungsaspekte für Klassifizierer beantworten. Eine davon nennt man auch Genauigkeit. Wenn Ihre Arbeit nicht für ein Publikum mit maschinellem Lernen / Klassifizierung gedacht ist, empfehle ich, diese Unterscheidung sehr deutlich zu machen. Selbst für diese spezifischere Bedeutung von Genauigkeit würde ich sehr genau sagen, was ich Genauigkeit nenne, da wiederum verschiedene Arten des Umgangs mit Klassenungleichgewichten auftreten können. Typischerweise wird das Klassenungleichgewicht ignoriert, was zu dem bekannten Berechnung. Sie können jedoch auch den Durchschnitt der Sensitivität und Spezifität verwenden, der der Kontrolle des Klassenungleichgewichts durch Gewichtung Ihres Durchschnitts gleichkommt. $\frac{TP+TN}{all~cases}$

Der F-Score wird häufig als harmonisches Mittel für Präzision und Erinnerung (oder als positiver Vorhersagewert und Empfindlichkeit) eingeführt. Für Ihre Frage halte ich es für hilfreich, dies etwas näher zu formulieren und zu vereinfachen:

$F = \frac{2 \cdot precision \cdot recall}{precision + recall} = \frac{2 \frac{TP}{all~P} \frac{TP}{all T}}{\frac{TP}{all~P} + \frac{TP}{all T}} = \frac{2 \frac{TP^2}{all~P \cdot all T}}{\frac{TP \cdot all~T}{all~P \cdot all T} + \frac{TP \cdot all~P}{all~P \cdot all T}} = \frac{2~TP^2}{TP \cdot all~T + TP \cdot all~P} = \frac{2~TP}{all~T + all~P}$

Der letzte Ausdruck ist kein Bruchteil von allem, was ich mir als eine bestimmte Gruppe von Testfällen vorstellen kann. Insbesondere wird eine (starke) Überlappung zwischen den Fällen TRUE und POSITIVE erwartet. Dies würde mich davon abhalten, einen F-Score als Prozentsatz auszudrücken, da dies einen Teil der Fälle impliziert. Eigentlich denke ich, ich würde den Leser warnen, dass der F-Score keine solche Interpretation hat.

— cbeleites unzufrieden mit SX
quelle

F_{1}

$F_1$

Schnelle Antwort:

Nein, die F-measureFormel besteht nicht aus einem TNFaktor und ist nützlich, um Probleme abzurufen ^(doc) .

Daher ist es ( F-measure) der richtige Ansatz, die unausgeglichenen Datensätze oder bei Abrufproblemen anstelle von accuracyund auszuwerten ROC.

Accuracy = (TP+TN) / (TP+FP+FN+TN)

F1_Score = 2*(Recall * Precision) / (Recall + Precision)
# or
F1_Score = 2*TP / (2*TP + FP + FN)

[ HINWEIS ]:

Precision = TP / (TP+FP)

Recall = TP / (TP+FN)

— Benyamin Jafari
quelle