Was ist die optimale Distanzfunktion für Personen, wenn Attribute nominal sind?


12

Ich weiß nicht, welche Distanzfunktion zwischen Individuen bei nominalen (ungeordneten kategorialen) Attributen verwendet werden soll. Ich habe ein Lehrbuch gelesen und sie schlagen die Simple Matching- Funktion vor, aber einige Bücher schlagen vor, dass ich die nominalen in binäre Attribute ändern und den Jaccard- Koeffizienten verwenden sollte. Was ist jedoch, wenn die Werte des nominalen Attributs nicht 2 sind? Was ist, wenn dieses Attribut drei oder vier Werte enthält?

Welche Distanzfunktion soll ich für nominelle Attribute verwenden?


1
Ich fand diesen Beitrag in Cramers V- und Chi-Quadrat-Statistik nützlich.
KarthikS

Antworten:


18

Technisch gesehen berechnen die meisten Programme zur Berechnung eines Dis- (Ähnlichkeits-) Maßes zwischen Personen anhand von Nominalattributen zunächst jede Nominalvariable in einen Satz von Dummy- Binärvariablen und berechnen dann ein Maß für Binärvariablen . Hier finden Sie Formeln einiger häufig verwendeter binärer Ähnlichkeits- und Unähnlichkeitsmaße .

Was sind Dummy-Variablen (auch One-Hot genannt)? Unten sind 5 Personen, zwei nominelle Variablen (A mit 3 Kategorien, B mit 2 Kategorien). 3 Dummies anstelle von A, 2 Dummies anstelle von B.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Es ist nicht erforderlich, eine Dummy-Variable als "redundant" zu entfernen, wie dies normalerweise bei der Regression mit Dummies der Fall ist. Dies wird beim Clustering nicht praktiziert, obwohl Sie diese Option in besonderen Situationen möglicherweise in Betracht ziehen.)

Es gibt viele Maße für binäre Variablen, jedoch passen nicht alle logisch zu binären Dummy- Variablen, dh früheren nominalen. Sie sehen, für eine nominelle Variable sind die Tatsache "die 2 Individuen stimmen überein" und die Tatsache "die 2 Individuen stimmen nicht überein" von gleicher Bedeutung. Aber betrachten Sie das beliebte Jaccard-Maß , woaa+b+c

  • a - Anzahl der Dummies 1 für beide Personen
  • b - Anzahl der Dummies 1 dafür und 0 dafür
  • c - Anzahl der Dummies 0 dafür und 1 dafür
  • d - Anzahl der Dummies 0 für beide

Hier besteht die Nichtübereinstimmung aus zwei Varianten, und ; aber für uns ist, wie bereits gesagt, jeder von ihnen von der gleichen Bedeutung wie Match . Daher sollten wir ein zweiGewicht , und erhalten Formel , bekannt als Dice (nach Lee Dice) oder Czekanovsky-Sorensen measure. Es ist besser für Dummy-Variablen geeignet. In der Tat ist der berühmte zusammengesetzte Gower- Koeffizient (der für Sie mit Ihren nominalen Attributen empfohlen wird) genau gleich Würfel, wenn alle Attribute nominal sind. Beachten Sie auch, dass für Dummy- Variablen Würfelmaß (zwischen Individuen) = Ochiai- Maß (das einfach a ist)c a a 2 abcaa2a2a+b+cCosinus ) = Kulczynsky 2- Maß. Und mehr zu Ihrer Information, 1-Würfel = binäre Lance-Williams- Distanz, auch als Bray-Curtis- Distanz bekannt. Schauen Sie, wie viele Synonyme Sie haben - Sie werden sicher etwas davon in Ihrer Software finden!

Die intuitive Gültigkeit des Würfel-Ähnlichkeitskoeffizienten beruht auf der Tatsache, dass es sich lediglich um das Koexistenzverhältnis (oder die relative Übereinstimmung ) handelt. Nehmen Sie für das obige Daten-Snippet die nominelle Spalte Aund berechnen Sie die 5x5quadratische symmetrische Matrix entweder mit 1(beide Personen fielen in dieselbe Kategorie) oder 0(nicht in dieselbe Kategorie). Berechnen Sie ebenfalls die Matrix für B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Summiere die entsprechenden Einträge der beiden Matrizen und dividiere durch 2 (Anzahl der nominalen Variablen) - hier bist du mit der Matrix der Würfelkoeffizienten. (Sie müssen also eigentlich keine Dummies erstellen, um Würfel zu berechnen. Mit Matrixoperationen können Sie dies wahrscheinlich schneller tun, als gerade beschrieben.) Informationen zur Zuordnung von nominalen Attributen finden Sie in einem verwandten Thema zu Würfeln .

Obwohl Würfel das offensichtlichste Maß sind, das verwendet werden soll, wenn Sie eine (Dis-) Ähnlichkeitsfunktion zwischen Fällen wünschen, in denen Attribute kategorisch sind, können andere binäre Maße verwendet werden - wenn ihre Formel die Überlegungen zu Ihren Nenndaten erfüllt.

Maßnahmen wie Simple Matching (SM oder Rand) , die im Zähler enthalten, passen nicht zu Ihnen, da sie 0-0 behandeln (beide Personen tun dies) keine bestimmte gemeinsame Eigenschaft / Kategorie haben) als Übereinstimmung, was offensichtlich Unsinn mit ursprünglich nominalen, qualitativen Merkmalen ist. Überprüfen Sie daher die Formel der Ähnlichkeit oder Unähnlichkeit, die Sie mit den Mengen von Dummy-Variablen verwenden möchten: Wenn als Grund für Gleichheit gilt oder impliziert , verwenden Sie dieses Maß nicht für nominelle Daten. Zum Beispiel quadratischer euklidischer Abstand , dessen Formel mit Binärdaten nur ddb+cdd2=p(1-SM)pa+da+b+c+dddb+c(und ist in diesem Fall synonym mit Manhattan-Entfernung oder Hamming-Entfernung) behandelt als Grundlage für Gleichheit. Tatsächlich ist , wobei die Anzahl der binären Attribute ist; Daher ist der euklidische Abstand informativ gleichwertig mit SM und sollte nicht auf ursprünglich nominelle Daten angewendet werden.dd2=p(1SM)p

Aber ...

Nachdem ich den vorherigen "theoretischen" Absatz gelesen hatte, wurde mir klar, dass - trotz allem, was ich geschrieben habe - die Mehrheit der binären Koeffizienten (auch diejenigen, die ) praktisch die meiste Zeit ausreicht. Ich habe durch Überprüfung festgestellt, dass bei Dummy-Variablen, die aus einer Reihe von nominalen Variablen erhalten wurden, der Würfelkoeffizient streng funktional mit einer Reihe anderer binärer Kennzahlen zusammenhängt (Akronym ist das Schlüsselwort der Kennzahl in SPSS):d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Da sich in vielen Anwendungen einer Proximity-Matrix, wie beispielsweise in vielen Methoden der Clusteranalyse, die Ergebnisse bei linearer (und manchmal sogar monotoner) Transformation von Ähnlichkeiten nicht oder reibungslos ändern, scheint dies für eine Vielzahl von gerechtfertigt zu sein binäre Maßnahmen neben Würfeln, um gleiche oder ähnliche Ergebnisse zu erhalten. Sie sollten jedoch zunächst überlegen / untersuchen, wie die spezifische Methode (z. B. eine Verknüpfung in hierarchischen Clustern) auf eine bestimmte Transformation von Ähnlichkeiten reagiert.

Wenn Ihre geplante Cluster- oder MDS-Analyse empfindlich auf monotone Transformationen von Entfernungen reagiert, sollten Sie keine in der obigen Tabelle als "monoton" angegebenen Maßnahmen verwenden (und daher ist es nicht ratsam, Jaccard-Ähnlichkeit oder nichtquadratische euklidische Entfernung mit Dummy zu verwenden dh frühere nominelle Attribute).


Ja, Sie haben Recht mit den Werten. Ein Attribut hat also drei mögliche Werte
Jane Doe

2
Angenommen, ich habe zwei Werte des gleichen Attributs, "ball", "nall", "pall", und ich habe dies in 11 01 und 00 konvertiert. Ich möchte den Jaccard-Abstand zwischen 11 und 00 messen. In diesem Fall ist dann der Entfernung 1? da a = 0 b = 2 c = 0 und d = 0? Lass es mich wissen, bitte!
Jane Doe

Ich vermisse den Punkt Ihres letzten Kommentars. Bitte fragen Sie deutlich. Oder verwenden Sie meine obigen Beispieldaten mit 5 Personen und 2 nominalen Attributen und sagen Sie, mit welcher Person ich vergleichen soll und mit welchem ​​Dis (Ähnlichkeits-) Maß.
ttnphns
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.