Die naheliegendste intuitive Bedeutung des f1-Scores wird als Mittelwert des Abrufs und der Genauigkeit wahrgenommen. Lassen Sie es uns für Sie klären:
In einer Klassifizierungsaufgabe planen Sie möglicherweise, einen Klassifizierer mit hoher Genauigkeit UND Rückruffunktion zu erstellen . Zum Beispiel ein Klassifikator, der angibt, ob eine Person ehrlich ist oder nicht.
Um genau zu sein, können Sie in der Regel genau sagen, wie viele ehrliche Personen in einer bestimmten Gruppe anwesend sind. In diesem Fall gehen Sie davon aus, dass Sie eine Lügnerperson als ehrlich einstufen können, aber nicht oft. Mit anderen Worten, hier versuchen Sie, den Lügner als ganze Gruppe als ehrlich zu bezeichnen.
Um sich zu erinnern, werden Sie jedoch wirklich besorgt sein, wenn Sie eine Lügnerperson für ehrlich halten. Für Sie wird dies ein großer Verlust und ein großer Fehler sein, und Sie möchten es nicht noch einmal tun. Es ist auch in Ordnung, wenn Sie jemanden als ehrlich als Lügner einstufen, aber Ihr Model sollte niemals (oder meistens nicht) einen Lügner als ehrlich bezeichnen. Mit anderen Worten, Sie konzentrieren sich hier auf eine bestimmte Klasse und versuchen, keinen Fehler zu machen.
Nehmen wir nun den Fall, in dem Ihr Modell (1) ehrlich von einem Lügner (Präzision) genau identifizieren soll (2) jede Person aus beiden Klassen identifizieren soll (Rückruf). Das bedeutet, dass Sie das Modell auswählen, das für beide Metriken eine gute Leistung erbringt.
Bei der Modellauswahlentscheidung wird dann versucht, jedes Modell auf der Grundlage des Mittelwerts der beiden Metriken zu bewerten. F-Score ist der beste, der dies beschreiben kann. Schauen wir uns die Formel an:
Rückruf: p = tp / (tp + fp)
Rückruf: r = tp / (tp + fn)
F-Punktzahl: fscore = 2 / (1 / r + 1 / p)
Wie Sie sehen, ist der F-Score umso höher, je höher die Abruf- UND Genauigkeit ist.