Vor kurzem musste ich eine Metrik für die Bewertung von Multilabel-Ranking-Algorithmen auswählen und kam zu diesem Thema, das wirklich hilfreich war. Hier sind einige Ergänzungen zu stpks Antwort, die hilfreich waren, um eine Wahl zu treffen.
- MAP kann auf Kosten einer Annäherung an Multilabel-Probleme angepasst werden
- MAP muss nicht bei k berechnet werden, aber die Multilabel-Version wird möglicherweise nicht angepasst, wenn die negative Klasse überwiegt
- MAP und (N) DCG können beide als gewichteter Durchschnitt der eingestuften Relevanzwerte umgeschrieben werden
Einzelheiten
Konzentrieren wir uns auf die durchschnittliche Genauigkeit (Average Precision, AP), da die mittlere durchschnittliche Genauigkeit (Mean Average Precision, MAP) nur der Durchschnitt der APs bei mehreren Abfragen ist. AP ist für Binärdaten korrekt als der Bereich unter der Präzisionsrückrufkurve definiert, der als Durchschnitt der Präzisionen bei jedem positiven Element umgeschrieben werden kann. (siehe den Wikipedia-Artikel über MAP ) Eine mögliche Annäherung besteht darin, ihn als Durchschnitt der Präzisionen bei jedem zu definierenArtikel. Leider verlieren wir die nette Eigenschaft, dass die negativen Beispiele am Ende der Liste keinen Einfluss auf den Wert von AP haben. (Dies ist besonders traurig, wenn es um die Bewertung einer Suchmaschine mit weitaus mehr negativen Beispielen als positiven Beispielen geht. Eine mögliche Problemumgehung besteht darin, die negativen Beispiele auf Kosten anderer Nachteile zu subsampeln, z. B. werden die Abfragen mit positiveren Elementen gleichermaßen schwierig zu den Abfragen mit wenigen positiven Beispielen.)
Andererseits hat diese Annäherung die nette Eigenschaft, dass sie sich gut auf den Mehrfachetikettenfall verallgemeinert. Tatsächlich kann im binären Fall die Genauigkeit an Position k auch als durchschnittliche Relevanz vor Position k interpretiert werden, wobei die Relevanz eines positiven Beispiels 1 und die Relevanz eines negativen Beispiels 0 beträgt. Diese Definition erstreckt sich ganz natürlich auf der Fall, in dem es mehr als zwei verschiedene Relevanzebenen gibt. In diesem Fall kann AP auch als Mittelwert der Durchschnittswerte der Relevanzen an jeder Position definiert werden.
k
wEIN Pk=1KLog( Kk)
wo Kist die Anzahl der zu bewertenden Gegenstände. Jetzt haben wir diesen Ausdruck und können ihn mit dem DCG vergleichen. In der Tat ist DCG auch ein gewichteter Durchschnitt der eingestuften Relevanzen. Die Gewichte sind:
wD CGk= 1Log( k + 1 )
Aus diesen beiden Ausdrücken können wir ableiten, dass - AP die Dokumente von 1 bis 0 wiegt. - DCG die Dokumente unabhängig von der Gesamtzahl der Dokumente wiegt.
In beiden Fällen kann das Gesamtgewicht des Positivs vernachlässigbar sein, wenn es viel irrelevantere Beispiele als relevante Beispiele gibt. Für AP besteht eine Problemumgehung darin, die negativen Stichproben zu unterbemustern. Ich bin mir jedoch nicht sicher, wie ich den Anteil der Unterabtastung wählen und ob dies von der Abfrage oder der Anzahl der positiven Dokumente abhängen soll. Für DCG können wir es bei k schneiden, aber die gleichen Fragen stellen sich.
Ich würde mich freuen, mehr darüber zu erfahren, wenn hier jemand an dem Thema arbeitet.