Vergleich von Ranglisten


15

Angenommen, zwei Gruppen, bestehend aus und jeweils einen Satz von 25 Elementen von den wichtigsten bis zu den unwichtigsten. Wie lassen sich diese Rankings am besten vergleichen?n 2n1n2

Natürlich ist es möglich, 25 Mann-Whitney-U-Tests durchzuführen, aber dies würde zu 25 zu interpretierenden Testergebnissen führen, was zu viel sein kann (und im strengen Sinne Fragen mehrerer Vergleiche aufwirft). Mir ist auch nicht ganz klar, dass die Ränge alle Annahmen dieses Tests erfüllen.

Ich würde mich auch für Literaturhinweise zu Rating vs. Ranking interessieren.

Einige Zusammenhänge: Diese 25 Punkte beziehen sich alle auf Bildung und die beiden Gruppen sind unterschiedliche Arten von Erziehern. Beide Gruppen sind klein.

BEARBEITEN als Antwort auf @ttnphns:

Ich wollte nicht den Gesamtrang der Elemente in Gruppe 1 mit Gruppe 2 vergleichen - das wäre eine Konstante, wie @ttnphns betont. Die Platzierungen in Gruppe 1 und Gruppe 2 sind jedoch unterschiedlich. Das heißt, Gruppe 1 kann Punkt 1 höher einstufen als Gruppe 2.

Ich konnte sie vergleichen, Element für Element, den mittleren oder mittleren Rang jedes Elements ermitteln und 25 Tests durchführen, aber ich fragte mich, ob es einen besseren Weg dafür gibt.


1
Wenn jede Person 25 Punkte bewertet hat, ist die Summe der 25 Variablen eine Konstante (325). Was meinst du damit the best ways to compare these rankings- welche Art von Unterschied zwischen den beiden Gruppen würdest du gerne wissen?
TTNPHNS

2
Vielleicht, um Kemenys Median für jede Gruppe zu berechnen? Ich habe es nicht selbst gemacht und weiß nicht, ob die 2 Ergebnisse als statistisch verglichen werden können (dh mit Rückschluss auf die Bevölkerung).
TTNPHNS

1
Eine andere Möglichkeit ist die wiederholte Messung der ordinalen Regression (wobei die Wechselwirkung zwischen dem Gruppenfaktor und dem rm-Faktor Ihr Interesse ist). Dies kann über das GEE-Modell mit multinomialer Verteilung und logit link erfolgen. Aber da die Summe über 25 Elemente eine Konstante ist, kann ich jetzt nicht sagen, ob sie mathematisch gültig ist.
TTNPHNS

2
Ich habe das Buch nicht bei mir, aber "Measurement Theory and Practice" von D Hand behandelt einige Probleme, die sich ähnlich anhören. Was möchten Sie insbesondere über den "Unterschied" im Ranking wissen? Könnten Sie beispielsweise nicht zuerst für jede Gruppe ein aggregiertes Ranking erstellen und dann die Rangkorrelation verwenden?
Corone

2
@PeterFlom Hast du endlich eine Lösung für den Rangvergleich gefunden? Wenn ja, würde es Ihnen etwas ausmachen, es zu posten? :)
Mark Heckmann

Antworten:


6

Zusammenfassung

Ich teile meine Gedanken im Detailbereich . Ich denke, sie sind nützlich, um herauszufinden, was wir wirklich erreichen wollen.

Ich denke, dass das Hauptproblem hier ist, dass Sie nicht definiert haben, was eine Rangähnlichkeit bedeutet. Daher weiß niemand, welche Methode zum Messen des Unterschieds zwischen den Reihen besser ist.

Tatsächlich bleibt es uns daher unklar, eine auf Vermutungen basierende Methode zu wählen.

Was ich wirklich vorschlage, ist, zuerst ein mathematisches Optimierungsziel zu definieren. Nur dann werden wir sicher sein, ob wir wirklich wissen, was wir wollen.

Wenn wir das nicht tun, wissen wir wirklich nicht, was wir wollen. Wir könnten fast wissen , was wir wollen, aber fast zu wissen wissen .

Mein Text in Details ist im Wesentlichen ein Schritt in Richtung einer mathematischen Definition der Ähnlichkeit von Rängen . Sobald wir dies festgestellt haben, können wir mit Zuversicht vorwärts gehen, um die beste Methode zur Messung dieser Ähnlichkeit zu wählen.

Einzelheiten

Basierend auf einem Ihrer Kommentare:

  • " Ziel ist es, herauszufinden, ob sich die beiden Gruppenrankings unterscheiden ", so Peter Flom.

Um dies zu beantworten, während das Ziel streng interpretiert wird:

  • Die Reihen sind anders , wenn jedes Element , gibt es i , so dass ein ib i , wo ein i ist der Rang von der Ziffer i von der Gruppe a und b i ist der Rang desselben Artikels, jedoch nach Gruppe b .i{1,2,,25}iaibiaiiabib
  • Ansonsten sind die Reihen nicht anders.

Aber ich glaube nicht, dass Sie diese strenge Interpretation wirklich wollen . Deshalb denke ich, was Sie wirklich sagen wollten, ist:

  • Wie unterschiedlich sind die Gruppen und b ?ab

Eine Lösung besteht darin, einfach den minimalen Bearbeitungsabstand zu messen . Das heißt, wie viele Bearbeitungen müssen mindestens in der Rangliste der Gruppe , damit sie mit der der Gruppe b identisch werden .ab

Eine Änderung kann als Austausch zweier Elemente definiert werden und kostet Punkte, je nachdem, wie viele Hops benötigt werden. Also, wenn Punkt mit Punkt getauscht werden mussn1(um identische Ränge zwischen denen der Gruppen a und b zu erzielen), betragen die Kosten für diese Bearbeitung 3 .3ab3

Aber ist diese Methode geeignet? Um dies zu beantworten, schauen wir uns das etwas genauer an:

  • Es ist nicht normalisiert. Wenn wir sagen , dass der Abstand zwischen Reihen der Gruppen ist 3 , während der Abstand zwischen den Reihen der Gruppen c , d ist 123 , bedeutet dies nicht zwangsläufig bedeuten , dass ein , b ähnlicher sind sie als c , d sind zueinander (es könnte auch bedeuten, dass c , d eine viel größere Menge von Elementen rangieren).a,b3c,d123a,bc,dc,d

  • Es wird davon ausgegangen, dass die Kosten jeder Bearbeitung in Bezug auf die Anzahl der Sprünge linear sind . Trifft dies auf unsere Anwendungsdomäne zu? Könnte es sein, dass eine logistische Beziehung besser geeignet ist? Oder eine exponentielle ?

  • Es wird davon ausgegangen, dass alle Elemente gleich wichtig sind. ZB wird Uneinigkeit im Ranglistenpunkt (z. B.) genauso behandelt wie Uneinigkeit im Ranglistenpunkt (z. B.) 5 . Trifft dies auf Ihre Domain zu? Wenn wir zum Beispiel Bücher rangieren, ist es dann genauso wichtig, dass wir uns nicht über die Rangfolge eines berühmten Buches wie TAOCP einig sind wie über die Rangfolge eines schrecklichen Buches wie TAOUP ?15

Sobald wir die obigen Punkte angesprochen haben und ein geeignetes Maß für die Ähnlichkeit zwischen zwei Rängen erreicht haben, müssen wir weitere interessante Fragen stellen, wie zum Beispiel:

  • einb

5

Dies klingt wie der "Willcoxon-Test mit Vorzeichen" ( Wikipedia-Link ). Angenommen, die Werte Ihrer Ränge stammen aus derselben Menge (dh [1, 25]), dann ist dies ein Paar-Differenz-Test (mit der Null-Hypothese, dass diese Paare zufällig ausgewählt wurden). NB das ist eine Unähnlichkeitsbewertung!

Es gibt beides Rund PythonImplementierungen, die mit dieser Wiki-Seite verknüpft sind.


Interessant. Ich hatte noch nie von Wilcoxon gehört.
Peter Flom - Wiedereinsetzung von Monica

3

Warnung: Es ist eine großartige Frage und ich kenne die Antwort nicht. Das ist also eher ein "Was würde ich tun, wenn ich müsste":

Bei diesem Problem gibt es viele Freiheitsgrade und Vergleiche, aber bei begrenzten Daten ist es wirklich eine Frage der effizienten Datenaggregation. Wenn Sie nicht wissen, welchen Test Sie ausführen sollen, können Sie immer einen mit Permutationen "erfinden":

Zuerst definieren wir zwei Funktionen:

  • Abstimmungsfunktion : Wie werden die Ranglisten gewertet, damit alle Ranglisten einer einzelnen Gruppe zusammengefasst werden können? Sie können beispielsweise dem bestplatzierten Objekt 1 Punkt und allen anderen Objekten 0 Punkte zuweisen. Sie würden jedoch eine Menge Informationen verlieren. Vielleicht ist es besser, etwas zu verwenden, das wie folgt aussieht: Der bestplatzierte Gegenstand erhält 1 Punkt, der zweitplatzierte 2 Punkte usw.

  • Vergleichsfunktion : So vergleichen Sie zwei aggregierte Scores zwischen zwei Gruppen. Da beide ein Vektor sind, würde es funktionieren, eine geeignete Norm für den Unterschied zu nehmen.

Nun mache folgendes:

  1. Berechnen Sie zunächst eine Teststatistik, indem Sie die durchschnittliche Punktzahl mithilfe der Abstimmungsfunktion für jeden Punkt in den beiden Gruppen berechnen. Dies sollte zu zwei Vektoren der Größe 25 führen.
  2. Vergleichen Sie dann die beiden Ergebnisse mit der Vergleichsfunktion. Dies ist Ihre Teststatistik.

Das Problem ist, dass wir die Verteilung der Teststatistik unter der Null nicht kennen, dass beide Gruppen gleich sind. Aber wenn sie gleich sind, könnten wir Beobachtungen zwischen Gruppen zufällig mischen.

n1

Wiederholen Sie den Vorgang ungefähr 1000 Mal und verwenden Sie jetzt die Permutationsteststatistik als empirische Nullverteilung. Auf diese Weise können Sie einen p-Wert berechnen und nicht vergessen, ein nettes Histogramm zu erstellen und eine Linie für Ihre Teststatistik wie folgt zu zeichnen:

Histogramm-Permutationstest l1

l1l1l2

Histogramm-Permutationstest l2

Ich gehe jedoch davon aus, dass es je nach Einstellung eine Menge Zufälligkeiten geben kann und dass Sie eine ziemlich große Stichprobe benötigen, um eine Catch-All-Methode anwenden zu können. Wenn Sie über Vorkenntnisse zu bestimmten Dingen verfügen, von denen Sie glauben, dass sie sich zwischen den beiden Gruppen unterscheiden (z. B. bestimmte Elemente), können Sie diese verwenden, um Ihre beiden Funktionen anzupassen. (Natürlich tun Sie dies wie gewohnt , bevor Sie den Test ausführen, und wählen Sie Designs erst dann aus, wenn Sie etwas Bedeutendes erhalten. )

PS Schieß mir eine Nachricht, wenn du an meinem (chaotischen) Code interessiert bist. Es ist ein bisschen zu lang, um es hier hinzuzufügen, aber ich würde es gerne hochladen.


Ich mag diese Idee wirklich.
Peter Flom - Wiedereinsetzung von Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.