Ich führte eine 10-fache Kreuzvalidierung mit verschiedenen binären Klassifizierungsalgorithmen mit demselben Datensatz durch und erhielt sowohl mikro- als auch makromittelte Ergebnisse. Es sollte erwähnt werden, dass dies ein Mehrfachetiketten-Klassifizierungsproblem war.
In meinem Fall werden echte Negative und echte Positive gleich gewichtet. Das bedeutet, dass die korrekte Vorhersage von echten Negativen ebenso wichtig ist wie die korrekte Vorhersage von echten Positiven.
Die mikro-gemittelten Kennzahlen sind niedriger als die makro-gemittelten. Hier sind die Ergebnisse eines neuronalen Netzwerks und einer Support-Vektor-Maschine:
Ich habe mit demselben Datensatz auch einen Prozentsatz-Split-Test mit einem anderen Algorithmus durchgeführt. Die Ergebnisse waren:
Ich würde es vorziehen, den Prozentsatz-Split-Test mit den makro-gemittelten Ergebnissen zu vergleichen, aber ist das fair? Ich glaube nicht, dass die makro-gemittelten Ergebnisse verzerrt sind, weil echte Positive und echte Negative gleich gewichtet werden, aber ich frage mich, ob dies dasselbe ist wie der Vergleich von Äpfeln mit Orangen?
AKTUALISIEREN
Basierend auf den Kommentaren werde ich zeigen, wie die Mikro- und Makro-Durchschnittswerte berechnet werden.
Ich habe 144 Labels (die gleichen wie Features oder Attribute), die ich vorhersagen möchte. Präzision, Rückruf und F-Maß werden für jedes Etikett berechnet.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Betrachtet man ein binäres Bewertungsmaß B (tp, tn, fp, fn), das auf der Grundlage der wahren Positive (tp), wahren Negative (tn), falschen Positive (fp) und falschen Negative (fn) berechnet wird. Die Makro- und Mikro-Durchschnittswerte einer bestimmten Kennzahl können wie folgt berechnet werden:
Mit diesen Formeln können wir die Mikro- und Makrodurchschnitte wie folgt berechnen:
Also addieren mikro-gemittelte Maße alle tp, fp und fn (für jedes Etikett), woraufhin eine neue binäre Bewertung durchgeführt wird. Makro-gemittelte Kennzahlen addieren alle Kennzahlen (Präzision, Rückruf oder F-Kennzahl) und dividieren durch die Anzahl der Beschriftungen, was eher einem Durchschnitt entspricht.
Nun ist die Frage, welche man verwenden soll?