Das harmonische Mittel ist das Äquivalent des arithmetischen Mittels für Kehrwerte von Größen, die durch das arithmetische Mittel gemittelt werden sollen. Genauer gesagt, mit dem harmonischen Mittelwert transformieren Sie alle Ihre Zahlen in die "durchschnittliche" Form (indem Sie den Kehrwert nehmen), nehmen ihren arithmetischen Mittelwert und transformieren das Ergebnis dann zurück in die ursprüngliche Darstellung (indem Sie den Kehrwert erneut nehmen).
Präzision und Rückruf sind "natürlich" Kehrwerte, da ihr Zähler gleich und ihre Nenner unterschiedlich sind. Brüche sind im arithmetischen Mittel sinnvoller zu mitteln, wenn sie denselben Nenner haben.
Nehmen wir für mehr Intuition an, dass wir die Anzahl der echten positiven Elemente konstant halten. Indem Sie dann das harmonische Mittel der Präzision und des Rückrufs nehmen, nehmen Sie implizit das arithmetische Mittel der falsch positiven und der falsch negativen Ergebnisse. Dies bedeutet im Grunde, dass falsch positive und falsch negative Ergebnisse für Sie gleichermaßen wichtig sind, wenn die wahren positiven Werte gleich bleiben. Wenn ein Algorithmus N mehr falsch positive Elemente, aber N weniger falsch negative Elemente enthält (bei gleichen wahren positiven Elementen), bleibt das F-Maß gleich.
Mit anderen Worten, das F-Maß ist geeignet, wenn:
- Fehler sind gleichermaßen schlimm, egal ob sie falsch positiv oder falsch negativ sind
- Die Anzahl der Fehler wird relativ zur Anzahl der echten Positiven gemessen
- wahre Negative sind uninteressant
Punkt 1 kann wahr sein oder nicht, es gibt gewichtete Varianten des F-Maßes, die verwendet werden können, wenn diese Annahme nicht wahr ist. Punkt 2 ist ganz natürlich, da wir erwarten können, dass die Ergebnisse skaliert werden, wenn wir nur immer mehr Punkte klassifizieren. Die relativen Zahlen sollten gleich bleiben.
Punkt 3 ist sehr interessant. In vielen Anwendungen sind Negative die natürliche Standardeinstellung, und es kann sogar schwierig oder willkürlich sein, anzugeben, was wirklich als echtes Negativ gilt. Zum Beispiel hat ein Feueralarm jede Sekunde, jede Nanosekunde, jedes Mal, wenn eine Planck-Zeit verstrichen ist, ein echtes negatives Ereignis usw. Sogar ein Stück Stein hat diese echten negativen Branderkennungsereignisse die ganze Zeit.
Oder in einem Gesichtserkennungsfall geben Sie meistens Milliarden möglicher Bereiche im Bild "nicht korrekt zurück ", aber das ist nicht interessant. Die interessanten Fälle sind , wenn Sie tun eine vorgeschlagene Erkennung zurückgeben oder wenn Sie sollten es zurück.
Im Gegensatz dazu kümmert sich die Klassifizierungsgenauigkeit gleichermaßen um echte Positive und echte Negative und ist besser geeignet, wenn die Gesamtzahl der Stichproben (Klassifizierungsereignisse) genau definiert und eher gering ist.