Schätzen der Korrelation zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen mithilfe gegenseitiger Informationen

In Bezug auf den Titel besteht die Idee darin, die gegenseitige Information hier und nach MI zu verwenden, um die "Korrelation" (definiert als "wie viel ich über A weiß, wenn ich B weiß") zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen zu schätzen. Ich werde Ihnen gleich meine Gedanken zu diesem Thema mitteilen, bevor ich Ihnen rate, diese andere Frage / Antwort auf CrossValidated zu lesen, da sie einige nützliche Informationen enthält.

Da wir jetzt nicht über eine kategoriale Variable integrieren können, müssen wir die kontinuierliche diskretisieren. Dies ist in R, der Sprache, mit der ich die meisten meiner Analysen durchgeführt habe, recht einfach möglich. Ich habe es vorgezogen, die cutFunktion zu verwenden, da sie auch Alias-Werte enthält, aber auch andere Optionen verfügbar sind. Der Punkt ist, dass man a priori die Anzahl der "Bins" (diskreten Zustände) bestimmen muss, bevor eine Diskretisierung durchgeführt werden kann.

Das Hauptproblem ist jedoch ein anderes: MI reicht von 0 bis ∞, da es ein nicht standardisiertes Maß ist, welche Einheit das Bit ist. Das macht es sehr schwierig, ihn als Korrelationskoeffizienten zu verwenden. Dies kann teilweise mit dem globalen Korrelationskoeffizienten hier und nach GCC, einer standardisierten Version von MI, gelöst werden . GCC ist wie folgt definiert:

Bildbeschreibung hier eingeben

Hinweis: Die Formel stammt aus Mutual Information als nichtlineares Instrument zur Analyse der Globalisierung der Aktienmärkte von Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.

GCC reicht von 0 bis 1 und kann daher leicht verwendet werden, um die Korrelation zwischen zwei Variablen abzuschätzen. Problem gelöst, richtig? So in etwa. Da all dieser Prozess stark von der Anzahl der 'Bins' abhängt, die wir während der Diskretisierung verwendet haben. Hier die Ergebnisse meiner Experimente:

Bildbeschreibung hier eingeben

Auf der y-Achse haben Sie GCC und auf der x-Achse haben Sie die Anzahl der 'Bins', die ich für die Diskretisierung verwendet habe. Die beiden Zeilen beziehen sich auf zwei verschiedene Analysen, die ich mit zwei verschiedenen (wenn auch sehr ähnlichen) Datensätzen durchgeführt habe.

Mir scheint, dass die Verwendung von MI im Allgemeinen und von GCC im Besonderen immer noch umstritten ist. Diese Verwirrung kann jedoch das Ergebnis eines Fehlers von meiner Seite sein. In beiden Fällen würde ich gerne Ihre Meinung dazu hören (haben Sie auch alternative Methoden, um die Korrelation zwischen einer kategorialen Variablen und einer kontinuierlichen zu schätzen?).

correlation information-theory mutual-information

— Edgar Derby
quelle

H (X_{i}, X_{j}) \leq H (X_{i}) + H (X_{j})

$H(X_i, X_j) \leq H(X_i) + H(X_j)$

Übrigens, hier ist Code für den Fall, dass jemand die Binning-Methode ausprobieren möchte.

— Zkurtz

Sie schätzen die "Korrelation" nicht. Sie schätzen gegenseitige Informationen. Der eine schätzt den anderen nicht; sie sind verschiedene Maßstäbe des allgemeineren Assoziationsbegriffs .

— Zkurtz

Vielleicht ist ein besserer Titel für diesen Beitrag "Wie kann man eine kontinuierliche Variable am besten klassifizieren, um ihre gegenseitigen Informationen mit einer kategorialen Variablen abzuschätzen?"

— Zkurtz

Hier ist ein interessanter Ansatz ohne Binning. Leider kann ich keine R-Implementierung finden.

— Zkurtz

Es gibt einen einfacheren und besseren Weg, um mit diesem Problem umzugehen. Eine kategoriale Variable ist praktisch nur eine Menge von Indikatorvariablen. Es ist eine Grundidee der Messtheorie, dass eine solche Variable für die Neuetikettierung der Kategorien nicht relevant ist. Daher ist es nicht sinnvoll, die numerische Kennzeichnung der Kategorien in einem Maß für die Beziehung zwischen einer anderen Variablen zu verwenden (z. B. „Korrelation“). . Aus diesem Grund sollte ein Maß für die Beziehung zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen vollständig auf den Indikatorvariablen basieren, die von letzteren abgeleitet sind.

$X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C Ö v (ich, X) = E (ich X) - E (ich) E (X) = ϕ [E (X | ich = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

was gibt:

C Ö r r (ich, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | ich = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$X$ $I$ $\phi$ $X$ $I=1$

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C Ö r r ({ich}_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$

— Setzen Sie Monica wieder ein
quelle