Warum wird das F-Maß für Klassifizierungsaufgaben bevorzugt?

8

Warum wird das F-Maß normalerweise für (überwachte) Klassifizierungsaufgaben verwendet, während das G-Maß (oder der Fowlkes-Mallows-Index) im Allgemeinen für (unbeaufsichtigte) Clustering-Aufgaben verwendet wird?

Das F-Maß ist das harmonische Mittel der Präzision und des Rückrufs .

Das G-Maß (oder der Fowlkes-Mallows-Index) ist das geometrische Mittel der Präzision und des Rückrufs .

Unten sehen Sie eine Darstellung der verschiedenen Mittel.

F1 (harmonisch) $= 2\cdot\frac{precision\cdot recall}{precision + recall}$

Geometric $= \sqrt{precision\cdot recall}$

Arithmetik $= \frac{precision + recall}{2}$

Der Grund, den ich frage, ist, dass ich entscheiden muss, welcher Durchschnitt in einer NLG-Aufgabe verwendet werden soll, in der ich BLEU und ROUGE gemessen habe (wobei BLEU Präzision und ROUGE entspricht, an die erinnert werden soll). Wie soll ich den Mittelwert dieser Werte berechnen?

— Bruno Lubascher
quelle

Vielleicht ist es nur so, wie die Definition geht!

— Aditya

1

@Aditya, du hast recht, es waren nur schlecht formulierte Fragen zur Definition. Ich habe es bearbeitet und in etwas Konkreteres umformuliert.

— Bruno Lubascher

3

Der Fı-Score wird der einfachen Klassifizierungsgenauigkeit vorgezogen, um dem Problem unausgeglichener Datensätze entgegenzuwirken. Wenn das, wonach Sie suchen, ohnehin nur selten vorkommt, kann ein naiver Klassifikator immer nein sagen und scheint sehr gut zu funktionieren! Eine Variante von Fı ist Fß, wo

Fß = (1 + ß²) × [(P × R) ÷ ((ß² × P) + R)]

Variieren Sie ß, um Präzision und Rückruf auszugleichen. Was das Warum F oder G betrifft, halte ich es für empirisch - Sie sagen nicht, ob Sie in Ihrer eigenen Anwendung klassifizieren oder gruppieren?

— Gaius
quelle

1

Vielen Dank für die Antwort, aber ich denke, Sie haben meine Frage nicht verstanden. Ich möchte nicht F1 mit einfacher Genauigkeit vergleichen. Stattdessen möchte ich die Mittelwerte zwischen Harmonisch und Geometrie und Arithmetik vergleichen . Ich mache keine traditionelle Klassifizierung oder Clusterbildung, ich habe eine NLG- Aufgabe, die in BLEU und ROUGE gemessen wird und mit einem der Mittelwerte gemittelt werden könnte, aber ich bin mir nicht sicher, welche ich auswählen soll.

— Bruno Lubascher

-1

Wenn Präzision und Rückruf ähnlich sind, ist F1 eine gute Einzelmaßnahme, um verschiedene Modelle zu vergleichen.

Kurz und bündig :)

— FrancoSchweiz
quelle

Ich verstehe nicht, wie Sie überhaupt versucht haben, meine Frage zu beantworten ...

— Bruno Lubascher