Zusammenfassung
Ich teile meine Gedanken im Detailbereich . Ich denke, sie sind nützlich, um herauszufinden, was wir wirklich erreichen wollen.
Ich denke, dass das Hauptproblem hier ist, dass Sie nicht definiert haben, was eine Rangähnlichkeit bedeutet. Daher weiß niemand, welche Methode zum Messen des Unterschieds zwischen den Reihen besser ist.
Tatsächlich bleibt es uns daher unklar, eine auf Vermutungen basierende Methode zu wählen.
Was ich wirklich vorschlage, ist, zuerst ein mathematisches Optimierungsziel zu definieren. Nur dann werden wir sicher sein, ob wir wirklich wissen, was wir wollen.
Wenn wir das nicht tun, wissen wir wirklich nicht, was wir wollen. Wir könnten fast wissen , was wir wollen, aber fast zu wissen wissen .≠
Mein Text in Details ist im Wesentlichen ein Schritt in Richtung einer mathematischen Definition der Ähnlichkeit von Rängen . Sobald wir dies festgestellt haben, können wir mit Zuversicht vorwärts gehen, um die beste Methode zur Messung dieser Ähnlichkeit zu wählen.
Einzelheiten
Basierend auf einem Ihrer Kommentare:
- " Ziel ist es, herauszufinden, ob sich die beiden Gruppenrankings unterscheiden ", so Peter Flom.
Um dies zu beantworten, während das Ziel streng interpretiert wird:
- Die Reihen sind anders , wenn jedes Element , gibt es i , so dass ein i ≠ b i , wo ein i ist der Rang von der Ziffer i von der Gruppe a und b i ist der Rang desselben Artikels, jedoch nach Gruppe b .i∈{1,2,…,25}iai≠biaiiabib
- Ansonsten sind die Reihen nicht anders.
Aber ich glaube nicht, dass Sie diese strenge Interpretation wirklich wollen . Deshalb denke ich, was Sie wirklich sagen wollten, ist:
- Wie unterschiedlich sind die Gruppen und b ?ab
Eine Lösung besteht darin, einfach den minimalen Bearbeitungsabstand zu messen . Das heißt, wie viele Bearbeitungen müssen mindestens in der Rangliste der Gruppe , damit sie mit der der Gruppe b identisch werden .ab
Eine Änderung kann als Austausch zweier Elemente definiert werden und kostet Punkte, je nachdem, wie viele Hops benötigt werden. Also, wenn Punkt mit Punkt getauscht werden mussn1(um identische Ränge zwischen denen der Gruppen a und b zu erzielen), betragen die Kosten für diese Bearbeitung 3 .3ab3
Aber ist diese Methode geeignet? Um dies zu beantworten, schauen wir uns das etwas genauer an:
Es ist nicht normalisiert. Wenn wir sagen , dass der Abstand zwischen Reihen der Gruppen ist 3 , während der Abstand zwischen den Reihen der Gruppen c , d ist 123 , bedeutet dies nicht zwangsläufig bedeuten , dass ein , b ähnlicher sind sie als c , d sind zueinander (es könnte auch bedeuten, dass c , d eine viel größere Menge von Elementen rangieren).a,b3c,d123a,bc,dc,d
Es wird davon ausgegangen, dass die Kosten jeder Bearbeitung in Bezug auf die Anzahl der Sprünge linear sind . Trifft dies auf unsere Anwendungsdomäne zu? Könnte es sein, dass eine logistische Beziehung besser geeignet ist? Oder eine exponentielle ?
Es wird davon ausgegangen, dass alle Elemente gleich wichtig sind. ZB wird Uneinigkeit im Ranglistenpunkt (z. B.) genauso behandelt wie Uneinigkeit im Ranglistenpunkt (z. B.) 5 . Trifft dies auf Ihre Domain zu? Wenn wir zum Beispiel Bücher rangieren, ist es dann genauso wichtig, dass wir uns nicht über die Rangfolge eines berühmten Buches wie TAOCP einig sind wie über die Rangfolge eines schrecklichen Buches wie TAOUP ?15
Sobald wir die obigen Punkte angesprochen haben und ein geeignetes Maß für die Ähnlichkeit zwischen zwei Rängen erreicht haben, müssen wir weitere interessante Fragen stellen, wie zum Beispiel:
the best ways to compare these rankings
- welche Art von Unterschied zwischen den beiden Gruppen würdest du gerne wissen?