Sollte ich Entscheidungen treffen, die auf mikro- oder makro-gemittelten Bewertungsmaßstäben basieren?

Ich führte eine 10-fache Kreuzvalidierung mit verschiedenen binären Klassifizierungsalgorithmen mit demselben Datensatz durch und erhielt sowohl mikro- als auch makromittelte Ergebnisse. Es sollte erwähnt werden, dass dies ein Mehrfachetiketten-Klassifizierungsproblem war.

In meinem Fall werden echte Negative und echte Positive gleich gewichtet. Das bedeutet, dass die korrekte Vorhersage von echten Negativen ebenso wichtig ist wie die korrekte Vorhersage von echten Positiven.

Die mikro-gemittelten Kennzahlen sind niedriger als die makro-gemittelten. Hier sind die Ergebnisse eines neuronalen Netzwerks und einer Support-Vektor-Maschine:

Bildbeschreibung hier eingeben

Ich habe mit demselben Datensatz auch einen Prozentsatz-Split-Test mit einem anderen Algorithmus durchgeführt. Die Ergebnisse waren:

Bildbeschreibung hier eingeben

Ich würde es vorziehen, den Prozentsatz-Split-Test mit den makro-gemittelten Ergebnissen zu vergleichen, aber ist das fair? Ich glaube nicht, dass die makro-gemittelten Ergebnisse verzerrt sind, weil echte Positive und echte Negative gleich gewichtet werden, aber ich frage mich, ob dies dasselbe ist wie der Vergleich von Äpfeln mit Orangen?

AKTUALISIEREN

Basierend auf den Kommentaren werde ich zeigen, wie die Mikro- und Makro-Durchschnittswerte berechnet werden.

Ich habe 144 Labels (die gleichen wie Features oder Attribute), die ich vorhersagen möchte. Präzision, Rückruf und F-Maß werden für jedes Etikett berechnet.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

Betrachtet man ein binäres Bewertungsmaß B (tp, tn, fp, fn), das auf der Grundlage der wahren Positive (tp), wahren Negative (tn), falschen Positive (fp) und falschen Negative (fn) berechnet wird. Die Makro- und Mikro-Durchschnittswerte einer bestimmten Kennzahl können wie folgt berechnet werden:

Bildbeschreibung hier eingeben

Mit diesen Formeln können wir die Mikro- und Makrodurchschnitte wie folgt berechnen:

Bildbeschreibung hier eingeben

Also addieren mikro-gemittelte Maße alle tp, fp und fn (für jedes Etikett), woraufhin eine neue binäre Bewertung durchgeführt wird. Makro-gemittelte Kennzahlen addieren alle Kennzahlen (Präzision, Rückruf oder F-Kennzahl) und dividieren durch die Anzahl der Beschriftungen, was eher einem Durchschnitt entspricht.

Nun ist die Frage, welche man verwenden soll?

machine-learning cross-validation

— Kenci
quelle

Wenn Sie nach dem Verwendungszweck fragen, für welchen Zweck? Zwischen den beiden Methoden wählen, Ergebnisse zusammenfassen oder etwas anderes?

— Sean Easter

Die beabsichtigte Verwendung besteht darin, herauszufinden, welches Modell das überlegenste ist, und etwas darüber zu erzählen, wie gut es funktioniert. Ich fand heraus, dass Mikromessungen laut Forman, George und Martin Scholz überlegen sind. "Äpfel gegen Äpfel in Kreuzvalidierungsstudien: Fallstricke bei der Leistungsmessung von Klassifikatoren." ACM SIGKDD Explorations Newsletter 12.1 (2010): 49-57.

— Kenci,

@ Kenci, ich glaube, du solltest das als Antwort auf deine eigene Frage posten und bestätigen, dass es die richtige Antwort ist. Danke für den Hinweis!

— Fnl

— Ihrer Information

Wenn Sie der Meinung sind, dass alle Beschriftungen mehr oder weniger gleich groß sind (ungefähr die gleiche Anzahl von Instanzen haben), verwenden Sie any.

Wenn Sie der Meinung sind, dass es Beschriftungen mit mehr Instanzen als andere gibt, und wenn Sie Ihre Metrik auf die am häufigsten verwendeten ausrichten möchten , verwenden Sie Mikromedien .

Wenn Sie der Meinung sind, dass es Beschriftungen mit mehr Instanzen als andere gibt und Sie Ihre Metrik auf die am wenigsten bevölkerten konzentrieren möchten (oder zumindest nicht auf die am meisten bevölkerten), verwenden Sie Macromedia .

Wenn das Mikromedienergebnis erheblich niedriger ist als das Makromedienergebnis, liegt eine grobe Fehlklassifizierung der am häufigsten verwendeten Etiketten vor, während Ihre kleineren Etiketten wahrscheinlich korrekt klassifiziert sind. Wenn das Makromedienergebnis erheblich niedriger ist als das Mikromedienergebnis, bedeutet dies, dass Ihre kleineren Etiketten schlecht klassifiziert sind, während Ihre größeren wahrscheinlich richtig klassifiziert sind.

Wenn Sie sich nicht sicher sind, was Sie tun sollen, fahren Sie mit den Vergleichen für Mikro- und Makro-Durchschnitt fort :)

Dies ist ein gutes Papier zu diesem Thema.

— felipeduque
quelle