Es gibt viele solcher Koeffizienten (die meisten werden hier ausgedrückt ). Versuchen Sie einfach , zu meditieren , was die Folgen der Unterschiede in den Formeln sind, vor allem , wenn Sie eine Berechnung Matrix von Koeffizienten.
Stellen Sie sich zum Beispiel vor, dass die Objekte 1 und 2 ähnlich sind wie die Objekte 3 und 4. Aber 1 und 2 haben viele der Attribute auf der Liste, während 3 und 4 nur wenige Attribute haben. In diesem Fall ist Russell-Rao (Anteil der Co-Attribute an der Gesamtzahl der betrachteten Attribute) für Paar 1-2 hoch und für Paar 3-4 niedrig. Aber Jaccard (Anteil von Co-Attributen an der kombinierten Anzahl von Attributen, die beide Objekte haben = Wahrscheinlichkeit, dass eines der Objekte ein Attribut hat, das beide haben) wird für beide Paare 1-2 und 3-4 hoch sein.
Diese Anpassung für die Basisebene der "Sättigung nach Attributen" macht Jaccard so beliebt und nützlicher als Russell-Rao , z. B. bei der Clusteranalyse oder der mehrdimensionalen Skalierung. Sie können die obige Anpassung in gewissem Sinne weiter verfeinern, indem Sie das Maß Kulczynski-2 auswählen , bei dem es sich um das arithmetische Mittel der Wahrscheinlichkeit handelt, dass ein Objekt ein Attribut hat, das auch das andere Objekt hat:
( aa + b+ aa + c) / 2
Hier wird die Basis (oder das Feld) der Attribute für die beiden Objekte nicht wie in Jaccard zusammengefasst, sondern ist für jedes der beiden Objekte eine eigene. Wenn sich die Objekte in Bezug auf die Anzahl der Attribute stark unterscheiden und alle Attribute des "ärmeren" Objekts mit dem "reicheren" Objekt übereinstimmen, ist Kulczynski folglich hoch, während Jaccard moderat ist.
Oder Sie möchten lieber die geometrische mittlere Wahrscheinlichkeit berechnen , dass ein Objekt ein Attribut hat, das auch das andere Objekt hat. Dies ergibt das Ochiai- Maß:
Da das Produkt schwächer zunimmt als die Summe, wenn nur einer der Begriffe wächst, ist Ochiai nur dann wirklich hoch, wenn beide Proportionen (Wahrscheinlichkeiten) hoch sind, was impliziert, dass die Objekte das Große teilen müssen, um von Ochiai als ähnlich angesehen zu werden Aktien ihrer Attribute. Kurz gesagt, Ochiai begrenzt die Ähnlichkeit, wenn und ungleich sind. Ochiai ist in der Tat das Cosinus-Ähnlichkeitsmaß (und Russell-Rao ist die Ähnlichkeit des Skalarprodukts).
eina + beina + c---------√
bc
PS
Liegt es nur daran, dass bei einigen Datensätzen das gleichzeitige Fehlen beider Attribute (d) keine Informationen liefert?
Apropos Ähnlichkeitsmaße: Man sollte nominelle dichotome Attribute (z. B. weiblich, männlich) nicht mit binären Attributen (vorhanden oder nicht vorhanden) mischen . Binärattribut ist (im Allgemeinen) nicht symmetrisch. Wenn Sie und ich ein Merkmal gemeinsam haben, ist dies die Basis für die Bezeichnung "ähnlich". Wenn Sie und ich beide das Merkmal vermissen, kann es je nach Kontext der Studie als Beweis für Ähnlichkeit angesehen werden oder auch nicht. Daher ist die abweichende Behandlung von möglich.d
Beachten Sie auch, dass Sie, wenn Sie Ähnlichkeiten zwischen Objekten auf der Grundlage von 1+ nominalen Attributen (dichotom oder polytom) berechnen möchten, jede dieser Variablen in die Menge der Dummy-Binärvariablen umcodieren. Dann ist das empfohlene Ähnlichkeitsmaß für die Berechnung Würfel ( das bei der Berechnung für 1+ Sätze von Dummy-Variablen Ochiai und Kulczynski-2 entspricht).