Wie vergleiche ich zwei Ranking-Algorithmen?

12

Ich möchte zwei Ranking-Algorithmen vergleichen. In diesen Algorithmen gibt der Client einige Bedingungen bei seiner Suche an. Entsprechend den Anforderungen des Kunden sollte dieser Algorithmus jedem Element in der Datenbank eine Bewertung zuweisen und Elemente mit den höchsten Bewertungen abrufen.

Ich habe auf dieser Website verschiedene Themen zu meiner Frage gelesen und im Internet gesucht. Nach meinen Recherchen war der relevanteste Artikel, der einige Metriken zum Vergleichen von Ranking-Algorithmen erklärt, folgender: Brian McFee und Gert RG Lanckriet, Metric Learning to Rank, ICML 2010 ( https://bmcfee.github.io/papers/mlr .pdf ). Ich denke, Prec @ k, MAP, MRR und NDCG sind gute Metriken, aber ich habe ein Problem:

Mein Algorithmus sortiert die Ergebnisse, sodass das erste Element in meiner Ergebnisliste das beste mit der höchsten Punktzahl ist, das zweite Ergebnis die zweite höchste Punktzahl hat und so weiter. Ich beschränke meinen Suchalgorithmus darauf, zum Beispiel 5 beste Ergebnisse zu finden. Die Ergebnisse sind die 5 besten Elemente. Die Genauigkeit ist also 1. Wenn ich meine Suche einschränke, um das beste Ergebnis zu finden, findet es das beste. Auch hier wird die Präzision 1 sein. Das Problem ist jedoch, dass dies für Personen, die dieses Ergebnis sehen, nicht akzeptabel ist.

Was kann ich tun? Wie kann ich diese Algorithmen vergleichen und zeigen, dass einer besser ist als der andere?

machine-learning precision-recall average-precision

— MK
quelle

5

Discounted Cumulative Gain (DCG) ist eine der beliebtesten Metriken für die Bewertung des Rankings durch Suchmaschinen. Es ist ein Maß für die Qualität des Rankings. Beim Abrufen von Informationen wird es häufig verwendet, um die Effektivität der Websuchmaschine zu messen.

Es basiert auf folgenden Annahmen:

Hochrelevante Dokumente sind nützlicher, wenn sie früher in einem Suchergebnis angezeigt werden.
Hochrelevante Dokumente sind nützlicher als marginal relevante Dokumente, die besser sind als nicht relevante Dokumente.

Die Formel für DCG lautet wie folgt:

\begin{matrix} (1) & D. C. G_{p} = \sum_{ich = 1}^{p} \frac{r e l_{ich}}{l Ö G_{2} (ich + 1)} = r e l_{1} + \sum_{ich = 2}^{p} \frac{r e l_{ich}}{l Ö G_{2} (ich + 1)} \end{matrix}

$DCG_p = \sum_{i=1}^p \frac {rel_i} {log_2 (i+1)} = rel_1 + \sum_{i=2}^p \frac {rel_i} {log_2 (i+1)} \tag{1}$

Wo:

i ist die zurückgegebene Position eines Dokuments im Suchergebnis.
$rel_i$ ist die abgestufte Relevanz des Dokuments
Summation über p (Anzahl der zurückgegebenen Ergebnisse), daher ergibt der akkumulierte kumulative Gewinn die Leistungsmetriken des zurückgegebenen Ergebnisses.

DCG wird abgeleitet von CG (Cumulative Gain) , gegeben durch:

\begin{matrix} (2) & C. G_{p} = \sum_{ich = 1}^{p} r e l_{ich} \end{matrix}

$CG_p = \sum_{i=1}^p rel_i \tag{2}$

Aus (2) ist das ersichtlich $CG_p$ ändert sich nicht für eine Änderung in der Reihenfolge der Ergebnisse. Um dieses Problem zu lösen, wurde DCG eingeführt. Es gibt eine andere Form von DCG, die beliebt ist, um dem Abrufen der Dokumente einen sehr hohen Stellenwert einzuräumen. Diese Version von DCG wird gegeben von:

\begin{matrix} (3) & D. C. G_{p} = \sum_{ich = 1}^{p} \frac{2^{r e l_{ich}} - - 1}{l Ö G_{2} (ich + 1)} \end{matrix}

$DCG_p = \sum_{i=1}^p \frac {2^{rel_i} - 1} {log_2 (i+1)} \tag{3}$

Ein offensichtlicher Nachteil der in (1) und (3) dargestellten DCG-Gleichung besteht darin, dass Algorithmen, die eine andere Anzahl von Ergebnissen zurückgeben, nicht effektiv verglichen werden können. Dies liegt daran, je höher der Wert von $p$ je höher der Wert von $DCG_p$ wird auf skaliert.

Um dieses Problem zu lösen , wird ein normalisiertes DCG (nDCG) vorgeschlagen. Es ist gegeben durch,

n D. C. G_{p} = \frac{D. C. G_{p}}{ich D. C. G_{p}}

$nDCG_p = \frac {DCG_p} {IDCG_p}$

wo $IDCG_p$ ist das Ideal $DCG_p$ , gegeben durch,

ich D. C. G_{p} = \sum_{ich = 1}^{| R. E. L. |} \frac{2^{r e l_{ich}} - - 1}{l Ö G_{2} (ich + 1)}

$IDCG_p = \sum_{i=1}^{|REL|} \frac {2^{rel_i} - 1} {log_2 (i+1)}$

Wo | REL | ist die Liste der Dokumente, die nach Relevanz im Korpus bis Position p geordnet sind.

Für einen perfekten Ranking-Algorithmus

D. C. G_{p} = ich D. C. G_{p}

$DCG_p = IDCG_p$

Da die Werte von nDCG innerhalb des Bereichs [0,1] skaliert sind, ist der abfrageübergreifende Vergleich unter Verwendung dieser Metriken möglich.

Nachteile: 1. nDCG bestraft das Abrufen fehlerhafter Dokumente im Ergebnis nicht. Dies kann durch Anpassen der den Dokumenten zugeordneten Relevanzwerte behoben werden. 2. nDCG bestraft fehlende Dokumente nicht. Dies kann behoben werden, indem die Abrufgröße festgelegt und die Mindestpunktzahl für die fehlenden Dokumente verwendet wird.

Siehe das Beispiel Berechnungen von nDCG für das Sehen.

Referenz

— m1cro1ce
quelle

0

Nützliche Ressourcen:

http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt
http://www.nii.ac.jp/TechReports/05-014E.pdf
http://www.stanford.edu/class/cs276/handouts/EvaluationNew-handout-6-per.pdf
http://hal.archives-ouvertes.fr/docs/00/72/67/60/PDF/07-busa-fekete.pdf
Lernen, für das Abrufen von Informationen zu ranken (Tie-Yan Liu)

— Renaud
quelle