Wie werden F-Messwerte interpretiert?


41

Ich würde gerne wissen, wie man einen Unterschied von f-Messwerten interpretiert. Ich weiß, dass das f-Maß ein ausgewogenes Mittel zwischen Präzision und Erinnerung ist, aber ich frage nach der praktischen Bedeutung eines Unterschieds bei den f-Maßen.

Wenn beispielsweise ein Klassifikator C1 eine Genauigkeit von 0,4 und ein anderer Klassifikator C2 eine Genauigkeit von 0,8 hat, können wir sagen, dass C2 das Doppel der Testbeispiele im Vergleich zu C1 korrekt klassifiziert hat. Wenn jedoch ein Klassifikator C1 für eine bestimmte Klasse ein F-Maß von 0,4 und ein anderer Klassifikator C2 ein F-Maß von 0,8 hat, was können wir über den Leistungsunterschied der beiden Klassifikatoren aussagen? Können wir sagen, dass C2 X weitere Instanzen korrekt als C1 klassifiziert hat?


2
Ich bin mir nicht sicher, ob Sie viel sagen können, da das F-Maß sowohl von der Genauigkeit als auch von der Erinnerung abhängt : en.wikipedia.org/wiki/F1_score . Sie können aber rechnen und eine (entweder Präzision oder Erinnerung) konstant halten und etwas über die andere sagen.
Nick

Antworten:


41

Ich kann mir keine intuitive Bedeutung des F-Maßes vorstellen, weil es nur eine kombinierte Metrik ist. Was intuitiver als F-Mesure ist, ist natürlich Präzision und Erinnerung.

Mit zwei Werten können wir jedoch häufig nicht feststellen, ob ein Algorithmus einem anderen überlegen ist. Wenn zum Beispiel ein Algorithmus eine höhere Genauigkeit, aber einen geringeren Wiederaufruf aufweist als der andere, wie können Sie feststellen, welcher Algorithmus besser ist?

Wenn Sie ein bestimmtes Ziel im Kopf haben wie „Präzision ist der König. Rückruf ist mir egal ', dann gibt es kein Problem. Höhere Präzision ist besser. Wenn Sie jedoch kein so starkes Ziel haben, möchten Sie eine kombinierte Metrik. Das ist F-Maß. Indem Sie es verwenden, vergleichen Sie einige der Präzision und einige der Erinnerung.

Die ROC-Kurve wird häufig unter Angabe des F-Maßes gezeichnet. Dieser Artikel ist möglicherweise interessant, da er Erläuterungen zu verschiedenen Kennzahlen einschließlich der ROC-Kurven enthält: http://binf.gmu.edu/mmasso/ROC101.pdf


23

Die Wichtigkeit des F1-Scores ist je nach Szenario unterschiedlich. Nehmen wir an, die Zielvariable ist eine binäre Bezeichnung.

  • Ausgeglichene Klasse: In dieser Situation kann der F1-Score effektiv ignoriert werden, die Fehlklassifizierungsrate ist der Schlüssel.
  • Unausgeglichene Klassen, aber beide Klassen sind wichtig: Wenn die Klassenverteilung stark verzerrt ist (z. B. 80:20 oder 90:10), kann ein Klassifizierer eine niedrige Fehlklassifizierungsrate erhalten, indem er einfach die Mehrheitsklasse wählt. In einer solchen Situation würde ich den Klassifikator wählen, der in beiden Klassen hohe F1-Werte sowie eine niedrige Fehlklassifizierungsrate erzielt. Ein Klassifikator, der niedrige F1-Werte erzielt, sollte übersehen werden.
  • Unausgeglichene Klasse, aber eine Klasse ist wichtiger als die andere. Zum Beispiel bei der Betrugserkennung ist es wichtiger, eine Instanz als betrügerisch zu kennzeichnen, als die nicht betrügerische. In diesem Fall würde ich den Klassifikator mit einer guten F1-Punktzahl nur für die wichtige Klasse auswählen . Denken Sie daran, dass der F1-Score pro Klasse verfügbar ist.

9

F-Measure hat eine intuitive Bedeutung. Hier erfahren Sie, wie genau Ihr Klassifikator ist (wie viele Instanzen er richtig klassifiziert) und wie robust er ist (es wird keine signifikante Anzahl von Instanzen übersehen).

Mit hoher Präzision und geringem Wiederaufruf ist Ihr Klassifikator äußerst genau, es fehlen jedoch eine erhebliche Anzahl von Instanzen, die schwer zu klassifizieren sind. Das ist nicht sehr nützlich.

Schauen Sie sich dieses Histogramm an. Bildbeschreibung hier eingebenIgnorieren Sie den ursprünglichen Zweck.

Nach rechts erhalten Sie eine hohe Präzision, aber einen geringen Rückruf. Wenn ich nur Instanzen mit einer Punktzahl über 0,9 auswähle, sind meine klassifizierten Instanzen äußerst präzise, ​​ich habe jedoch eine erhebliche Anzahl von Instanzen verpasst. Experimente zeigen, dass der Sweet Spot hier bei 0,76 liegt, wobei das F-Maß 0,87 beträgt.


5

Das F-Maß ist das harmonische Mittel Ihrer Präzision und Erinnerung. In den meisten Situationen besteht ein Kompromiss zwischen Präzision und Rückruf. Wenn Sie Ihren Klassifikator optimieren, um den einen zu erhöhen und den anderen zu benachteiligen, nimmt der harmonische Mittelwert schnell ab. Am besten ist es jedoch, wenn Präzision und Abruf gleich sind.

Bei F-Maßen von 0,4 und 0,8 für Ihre Klassifikatoren können Sie davon ausgehen, dass diese die Maximalwerte beim Abwägen der Genauigkeit gegen Rückruf erreichen.

Zur Veranschaulichung schauen Sie sich diese Abbildung aus Wikipedia an :

Bildbeschreibung hier eingeben

Das F-Maß ist H , A und B sind Erinnerung und Präzision. Sie können eine erhöhen, die andere jedoch verringern.


Ich fand die "Crossed Ladders" -Visualisierung etwas unkomplizierter - für mich macht es die Gleichheit von A = B, was zu dem größten H führt, intuitiver
Coruscate5

3

Die Formel für das F-Maß (F1, mit Beta = 1) ist dieselbe wie die Formel, die den Ersatzwiderstand ergibt, der sich aus zwei Widerständen zusammensetzt, die in der Physik parallel geschaltet sind (ohne den Faktor 2).

Dies könnte Ihnen eine mögliche Interpretation geben und Sie können sowohl über elektronische als auch über thermische Widerstände nachdenken. Diese Analogie würde das F-Maß als den äquivalenten Widerstand definieren, der durch die parallel geschaltete Empfindlichkeit und Präzision gebildet wird.

Für das F-Maß ist das Maximum 1 möglich, und Sie verlieren den Widerstand, sobald einer von den beiden ebenfalls den Widerstand verliert (dh Sie erhalten einen Wert unter 1). Wenn Sie diese Größe und ihre Dynamik besser verstehen wollen, denken Sie an das physikalische Phänomen. Beispielsweise scheint das F-Maß <= max (Empfindlichkeit, Präzision) zu sein.


3

Fβ1/β2

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2

1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
p F ββ2<1pFβ ).

0

Die naheliegendste intuitive Bedeutung des f1-Scores wird als Mittelwert des Abrufs und der Genauigkeit wahrgenommen. Lassen Sie es uns für Sie klären:

In einer Klassifizierungsaufgabe planen Sie möglicherweise, einen Klassifizierer mit hoher Genauigkeit UND Rückruffunktion zu erstellen . Zum Beispiel ein Klassifikator, der angibt, ob eine Person ehrlich ist oder nicht.

Um genau zu sein, können Sie in der Regel genau sagen, wie viele ehrliche Personen in einer bestimmten Gruppe anwesend sind. In diesem Fall gehen Sie davon aus, dass Sie eine Lügnerperson als ehrlich einstufen können, aber nicht oft. Mit anderen Worten, hier versuchen Sie, den Lügner als ganze Gruppe als ehrlich zu bezeichnen.

Um sich zu erinnern, werden Sie jedoch wirklich besorgt sein, wenn Sie eine Lügnerperson für ehrlich halten. Für Sie wird dies ein großer Verlust und ein großer Fehler sein, und Sie möchten es nicht noch einmal tun. Es ist auch in Ordnung, wenn Sie jemanden als ehrlich als Lügner einstufen, aber Ihr Model sollte niemals (oder meistens nicht) einen Lügner als ehrlich bezeichnen. Mit anderen Worten, Sie konzentrieren sich hier auf eine bestimmte Klasse und versuchen, keinen Fehler zu machen.

Nehmen wir nun den Fall, in dem Ihr Modell (1) ehrlich von einem Lügner (Präzision) genau identifizieren soll (2) jede Person aus beiden Klassen identifizieren soll (Rückruf). Das bedeutet, dass Sie das Modell auswählen, das für beide Metriken eine gute Leistung erbringt.

Bei der Modellauswahlentscheidung wird dann versucht, jedes Modell auf der Grundlage des Mittelwerts der beiden Metriken zu bewerten. F-Score ist der beste, der dies beschreiben kann. Schauen wir uns die Formel an:

Rückruf: p = tp / (tp + fp)

Rückruf: r = tp / (tp + fn)

F-Punktzahl: fscore = 2 / (1 / r + 1 / p)

Wie Sie sehen, ist der F-Score umso höher, je höher die Abruf- UND Genauigkeit ist.


0

Da wir wissen, dass der F1-Score ein harmonisches Mittel für Präzision und Erinnerung ist, werden wir uns im Folgenden kurz mit ihnen befassen.

Ich würde sagen, Recall ist mehr falsches Negativ .ie . Ein höherer Recall bedeutet, dass es weniger FALSE NEGATIVES gibt .

Recall=tptp+fn

So viel weniger FN oder Null FN bedeuten, Ihre Modellvorhersage ist wirklich gut.

Höhere Präzision bedeutet weniger FALSCHE POSITIVE

Precision=tptp+fp

Auch hier bedeutet "Weniger" oder "Falsch-Positiv-Null", dass die Modellvorhersage wirklich gut ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.