Unter Verwendung der a, b, c, d-Konvention des 4-fach-Tisches, wie hier ,
Y
1 0
-------
1 | a | b |
X -------
0 | c | d |
-------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.
ersetzen und bekommen
1−2(b+c)n=n−2b−2cn=(a+d)−(b+c)a+b+c+d = Hamann-Ähnlichkeitskoeffizient . Triff es zB hier . Zitieren:
Hamann-Ähnlichkeitsmaß. Dieses Maß gibt die Wahrscheinlichkeit an, dass ein Merkmal in beiden Elementen den gleichen Zustand aufweist (in beiden vorhanden oder in beiden nicht vorhanden), abzüglich der Wahrscheinlichkeit, dass ein Merkmal in beiden Elementen unterschiedliche Zustände aufweist (in dem einen vorhanden und in dem anderen nicht vorhanden). HAMANN hat einen Bereich von -1 bis +1 und ist monoton mit der Ähnlichkeit von Simple Matching (SM), Sokal & Sneath 1 (SS1) und Rogers & Tanimoto (RT) verwandt.
Vielleicht möchten Sie die Hamann-Formel mit der in den Begriffen a, b, c, d angegebenen Phi-Korrelation (die Sie erwähnen) vergleichen. Beide sind "Korrelations" -Maßnahmen - von -1 bis 1. Aber schauen Sie, Phis Zähler nähert sich nur dann 1, wenn sowohl a als auch d groß sind (oder ebenfalls -1, wenn sowohl b als auch c groß sind): Produkt, Sie wissen ... Mit anderen Worten, die Pearson-Korrelation und insbesondere die dichotome Datenhypostase Phi reagieren empfindlich auf die Symmetrie der Randverteilungen in den Daten. Hamanns Zähler , der Summen anstelle von Produkten hat, ist dafür nicht empfindlich: auch nichtad−bc(a+d)−(b+c)von zwei Summanden in einem Paar, das groß ist, reicht aus, damit der Koeffizient nahe 1 (oder -1) erreicht. Wenn Sie also ein "Korrelations" -Maß (oder Quasi-Korrelationsmaß) wünschen, das der Form der Randverteilungen trotzt, wählen Sie Hamann anstelle von Phi.
Illustration:
Crosstabulations:
Y
X 7 1
1 7
Phi = .75; Hamann = .75
Y
X 4 1
1 10
Phi = .71; Hamann = .75