Was ist die beste Art und Weise zu erklären , warum ist nicht eine gute Maßnahme, sagen wir, im Vergleich zu F1?
Was ist die beste Art und Weise zu erklären , warum ist nicht eine gute Maßnahme, sagen wir, im Vergleich zu F1?
Antworten:
Es ist nicht so, dass per se ein schlechtes Maß ist, es ist nur so, dass die resultierende Zahl für sich genommen nichts Bedeutungsvolles darstellt. Sie sind auf dem richtigen Weg ... wir suchen einen kombinierten Durchschnitt der beiden Leistungskennzahlen, da wir uns nicht zwischen ihnen entscheiden müssen.
Denken Sie daran, dass Präzision und Rückruf definiert sind als:
Recall=True Positive
Da beide unterschiedliche Nenner haben, ergibt sich durch Addition Folgendes : ... das ist nicht besonders nützlich.
Kehren wir zum Addieren zurück und nehmen Sie eine Optimierung vor: Multiplizieren Sie sie mit so dass sie in der richtigen Skala bleiben,[0-1]. Dies ist der bekannte Durchschnitt von ihnen.
Wir haben also zwei Größen, die denselben Zähler, aber unterschiedliche Nenner haben, und wir möchten den Durchschnitt von ihnen bilden. Was machen wir? Nun, wir könnten sie umdrehen und ihre Umkehrung nehmen. Dann könnten Sie sie zusammenfassen. Damit sie "richtig herum" sind, nimmst du wieder das Gegenteil.
Dieser Vorgang des Invertierens und anschließenden erneuten Invertierens wandelt einen "regulären" Mittelwert in einen harmonischen Mittelwert um. Es passiert einfach so , dass das harmonische Mittel von Precision und Recall ist die F1-Statistik. Der harmonische Mittelwert wird im Allgemeinen anstelle des arithmetischen Standardmittels verwendet, wenn es um Raten geht, wie wir es hier tun.
Letztendlich ist die F1-Statistik nur der Durchschnitt aus Genauigkeit und Abruf, und Sie verwenden sie, weil Sie nicht das eine oder andere auswählen möchten, um die Leistung des Modells zu bewerten.
Die kurze Antwort lautet: Sie würden nicht erwarten, dass die Summe von zwei Prozentsätzen mit zwei verschiedenen Nennern eine bestimmte Bedeutung hat. Daher ist der Ansatz, ein Durchschnittsmaß wie F1, F2 oder F0,5 zu verwenden. Letztere behalten mindestens das prozentuale Eigentum. Was ist mit ihrer Bedeutung?
Das Schöne an Precision und Recall als getrennten Maßstäben ist die einfache Interpretation und die Tatsache, dass sie leicht mit den Geschäftszielen des Modells konfrontiert werden können. Die Präzision misst den Prozentsatz true positives
der Fälle, die positive
vom Modell als klassifiziert werden. Rückruf misst den Prozentsatz vontrue positives
vom Modell gefundenen Werts in allen true
Fällen. Bei vielen Problemen müssen Sie zwischen der Optimierung von Precision und Recall wählen.
Jedes Durchschnittsmaß verliert die obige Interpretation und läuft darauf hinaus, welches Maß Sie am meisten bevorzugen. F1 bedeutet, dass Sie entweder nicht wissen, ob Sie Recall oder Precision bevorzugen, oder jedem von ihnen das gleiche Gewicht zuweisen. Wenn Sie Recall für wichtiger halten als Precision, sollten Sie ihm auch in der Durchschnittsberechnung ein höheres Gewicht zuweisen (z. B. F2) und umgekehrt (z. B. F0.5).
Das Hinzufügen der beiden ist eine schlechte Maßnahme. Sie erhalten eine Punktzahl von mindestens 1, wenn Sie alles als positiv markieren, da dies per Definition ein Rückruf von 100% ist. Und Sie werden ein wenig Präzision darüber bekommen. Das in F1 verwendete geometrische Mittel hebt das schwache Glied hervor, da es multiplikativ ist; Sie müssen sich zumindest mit Präzision und Gedächtnis zufrieden geben, um ein anständiges F1-Ergebnis zu erzielen.
Der F1-Score ist besonders wertvoll bei stark asymmetrischen Wahrscheinlichkeiten.
Betrachten Sie das folgende Beispiel: Wir testen auf eine seltene, aber gefährliche Krankheit. Nehmen wir an, dass in einer Stadt mit 1.000.000 Einwohnern nur 100 Menschen infiziert sind.
Test A erkennt alle diese 100 Positiven. Es weist jedoch auch eine 50% ige Falsch-Positiv-Quote auf: Weitere 500.000 Menschen werden fälschlicherweise als krank gemeldet.
In der Zwischenzeit fehlen bei Test B 10% der Infizierten, es werden jedoch nur 1.000 falsch-positive Ergebnisse erzielt (0,1% falsch-positive Ergebnisse).
Lassen Sie uns die Punktzahlen berechnen. Für Test A ist die Genauigkeit effektiv 0; Rückruf wird genau 1 sein. Für Test B wird die Genauigkeit immer noch ziemlich gering sein, etwa 0,01. Rückruf wird gleich 0,9 sein.
Wenn wir naiv das arithmetische Mittel der Genauigkeit addieren oder nehmen und uns erinnern, ergibt dies 1 (0,5) für Test A und 0,91 (0,455) für Test B. Test A scheint also geringfügig besser zu sein.
Aus praktischer Sicht ist Test A jedoch wertlos: Wenn ein Mensch positiv getestet wird, ist seine Wahrscheinlichkeit, wirklich krank zu sein, 1 von 50.000! Test B hat mehr praktische Bedeutung: Sie können 1.100 Personen ins Krankenhaus bringen und sie genau beobachten. Dies spiegelt sich genau in der F1-Wertung wider: Für Test A liegt er nahe bei 0,0002, für Test B bei (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, was immer noch ziemlich schlecht ist, aber ungefähr 50-mal besser.
Diese Übereinstimmung zwischen Punktzahl und praktischer Bedeutung macht die F1-Punktzahl wertvoll.
Im Allgemeinen werden durch Maximieren des geometrischen Mittels ähnliche Werte hervorgehoben. Nehmen wir zum Beispiel zwei Modelle: Das erste hat (Genauigkeit, Rückruf) = (0,8, 0,8) und das zweite hat (Genauigkeit, Rückruf) = (0,6, 1,0). Bei Verwendung des algebraischen Mittels wären beide Modelle gleichwertig. Mit dem geometrischen Mittelwert ist das erste Modell besser, da es keine Genauigkeit für den Rückruf bietet.