Wie heißt dieses Korrelations- / Assoziationsmaß zwischen binären Variablen?

Es gibt mehrere Maßnahmen der Assoziation (oder Kontingenz oder Korrelation) zwischen zwei binären Zufallsvariablen und , unter anderem $X$ $Y$

Pearson- Phi-Koeffizient
Cramérs V.

Ich frage mich, wie sich die folgende Zahl auf bekannte Maßnahmen bezieht, ob sie statistisch interessant ist und unter welchem Namen sie (möglicherweise) diskutiert wird: $\kappa$

κ = 1 - \frac{2}{N} | X △ Y |

$\kappa = 1 - \frac{2}{N}|X \triangle Y|$

mitdie Anzahl der Abtastwerte mit der Eigenschaft oder der Eigenschaft jedoch nicht beide (exklusives ODER, symmetrische Differenz), die Gesamtzahl der Abtastwerte. Wie der Phi-Koeffizient zeigt eine perfekte Übereinstimmung oder Nichtübereinstimmung an, und zeigt keine Beziehung an $|X \triangle Y|$ $X$ $Y$ $N$ $\kappa = ± 1$ $\kappa = 0$

correlation binary-data association-measure

— Hans-Peter Stricker
quelle

Antworten:

Unter Verwendung der a, b, c, d-Konvention des 4-fach-Tisches, wie hier ,

               Y
             1   0
            -------
        1  | a | b |
     X      -------
        0  | c | d |
            -------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.

ersetzen und bekommen

$1-\frac{2(b+c)}{n} = \frac{n-2b-2c}{n} = \frac{(a+d)-(b+c)}{a+b+c+d}$ = Hamann-Ähnlichkeitskoeffizient . Triff es zB hier . Zitieren:

Hamann-Ähnlichkeitsmaß. Dieses Maß gibt die Wahrscheinlichkeit an, dass ein Merkmal in beiden Elementen den gleichen Zustand aufweist (in beiden vorhanden oder in beiden nicht vorhanden), abzüglich der Wahrscheinlichkeit, dass ein Merkmal in beiden Elementen unterschiedliche Zustände aufweist (in dem einen vorhanden und in dem anderen nicht vorhanden). HAMANN hat einen Bereich von -1 bis +1 und ist monoton mit der Ähnlichkeit von Simple Matching (SM), Sokal & Sneath 1 (SS1) und Rogers & Tanimoto (RT) verwandt.

Vielleicht möchten Sie die Hamann-Formel mit der in den Begriffen a, b, c, d angegebenen Phi-Korrelation (die Sie erwähnen) vergleichen. Beide sind "Korrelations" -Maßnahmen - von -1 bis 1. Aber schauen Sie, Phis Zähler nähert sich nur dann 1, wenn sowohl a als auch d groß sind (oder ebenfalls -1, wenn sowohl b als auch c groß sind): Produkt, Sie wissen ... Mit anderen Worten, die Pearson-Korrelation und insbesondere die dichotome Datenhypostase Phi reagieren empfindlich auf die Symmetrie der Randverteilungen in den Daten. Hamanns Zähler , der Summen anstelle von Produkten hat, ist dafür nicht empfindlich: auch nicht $ad-bc$ $(a+d)-(b+c)$ von zwei Summanden in einem Paar, das groß ist, reicht aus, damit der Koeffizient nahe 1 (oder -1) erreicht. Wenn Sie also ein "Korrelations" -Maß (oder Quasi-Korrelationsmaß) wünschen, das der Form der Randverteilungen trotzt, wählen Sie Hamann anstelle von Phi.

Illustration:

Crosstabulations:
        Y
X    7     1
     1     7
Phi = .75; Hamann = .75

        Y
X    4     1
     1    10
Phi = .71; Hamann = .75

— ttnphns
quelle

Ist die Hamann-Ähnlichkeit weithin bekannt und als interessante Maßnahme anerkannt?

— Hans-Peter Stricker

Wie kann ich antworten? Wie viel weit verbreitet / akzeptiert wird ausreichen? :-) Es ist sicher weniger bekannt als Phi-Korrelation oder Jaccard-Ähnlichkeit. Trotzdem wird es manchmal verwendet. Google es zu sehen ... Eine seiner wichtigen Eigenschaften ist, dass es monoton äquivalent zu ... ist (siehe das Zitat).

— ttnphns

Entschuldigung für meine naive Frage und danke für Ihre informative Antwort :-)

— Hans-Peter Stricker

Können Sie mir einen Hinweis geben, unter welchen typischen Umständen ich eine "Korrelation ohne Randverteilungsform" und Hamann wählen möchte und unter welchen Umständen ich eine "Korrelation ohne Randverteilungsform" und Phi wählen möchte?

— Hans-Peter Stricker

Hans, wenn Sie über wissenschaftliche Bereiche oder Ziele sprechen, in denen wir sie übereinander verwenden möchten - warum stellen Sie das nicht als separate Frage? Weil vielleicht mehr Leute kommen, um zu antworten.

— ttnphns

Hubalek, Z. Assoziations- und Ähnlichkeitskoeffizienten, basierend auf binären Daten (Anwesenheit / Abwesenheit): Eine Bewertung (Biol. Rev., 1982) überprüft und bewertet 42 verschiedene Korrelationskoeffizienten für binäre Daten. Nur 3 von ihnen erfüllen grundlegende statistische Anforderungen. Leider wird das Problem der PRE-Interpretation (Proportional Reduction of Error) nicht diskutiert. Für die folgende Kontingenztabelle:

        present  absent

present    a       b

absent     c       d

Die Assoziationsmaßnahme sollte folgende zwingende Bedingungen erfüllen: $r$

$r(J,K) \le r(J,J) \quad\forall J, K$
$\min(r)$ sollte bei und bei $a = d = 0$ $\max(r)$ $b = c = 0$
$r(J,K) = r(K,J) \quad \forall K,J$
Unterscheidung zwischen positiver und negativer Assoziation
$r$ sollte für beide Teilmengen und linear mit (beachten Sie, dass Bedingung 4 verletzt) $\sqrt{\chi^2}$ $ad-bc < 0$ $ad-bc >= 0$ $\chi^2$

und im Idealfall die folgenden nicht obligatorisch:

Der Bereich von sollte entweder , oder $r$ $\left\{ -1 \dots +1 \right\}$ $\left\{0 \dots +1 \right\}$ $\left\{0 \dots \infty \right\}$
$r(b=c=0) > r(b = 0 \veebar c = 0)$
$r(a=0) = min(r)$ (strenger als 2) oben)
$r(a+1)-r(a) = r(a+2)-r(a+1)$
$r(a=0,b,c,d), r(a=1,b-1,c-1,d+1), r(a=2,b-2,c-2,d+2)\ldots$ sollten glatt sein
homogene Verteilung von in der Permutationsprobe $r$
Zufallsstichproben aus Populationen mit bekanntem : sollten selbst in kleinen Stichproben eine geringe Variabilität aufweisen $a,b,c,d$ $r$
einfache Berechnung, geringe Computerzeit

Alle Bedingungen werden von Jaccard , Russel & Rao (beide erfüllt Bereich ) und McConnaughey (Bereich ) $\left( \frac{a}{a+b+c} \right)$ $\left( \frac{a} {a+b+c+d} \right)$ $\left\{0 \dots +1 \right\}$ $\left( \frac{a^2 - bc}{(a+b) \times (a+c)}\right)$ $\left\{ -1 \dots +1 \right\}$

— Engelbert Buxbaum
quelle

Dies wäre einfacher zu lesen, wenn Sie die Verwendung der Notation bearbeiten könnten . Ich mache einen kleinen Teil, um zu zeigen, wie.

L A T E X

$\LaTeX$

— kjetil b halvorsen

Bitte führen Sie Ihre beiden Antworten hier zusammen: Bearbeiten Sie eine davon, indem Sie den Inhalt der anderen hinzufügen, und löschen Sie dann eine.

— ttnphns

auf Ihren Befehl ;-)

— Engelbert Buxbaum