Gegenseitige Information versus Korrelation

51

Warum und wann sollten wir Mutual Information für statistische Korrelationsmessungen wie "Pearson", "Spearman" oder "Kendall's Tau" verwenden?

correlation mathematical-statistics mutual-information

— SaZa
quelle

77

Betrachten wir ein grundlegendes Konzept der (linearen) Korrelation, die Kovarianz (Pearsons Korrelationskoeffizient "nicht standardisiert"). Für zwei diskrete Zufallsvariablen und mit Wahrscheinlichkeitsmassenfunktionen , und gemeinsamer pmf gilt $X$ $Y$ $p(x)$ $p(y)$ $p(x,y)$

Cov (X, Y) = E (X Y) - E (X) E (Y) = \sum_{x, y} p (x, y) x y - (\sum_{x} p (x) x) \cdot (\sum_{y} p (y) y)

$\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y) = \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right)$

\Rightarrow Cov (X, Y) = \sum_{x, y} [p (x, y) - p (x) p (y)] x y

$\Rightarrow \operatorname{Cov}(X,Y) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy$

Die gegenseitige Information zwischen den beiden ist definiert als

I (X, Y) = E (\ln \frac{p (x, y)}{p (x) p (y)}) = \sum_{x, y} p (x, y) [\ln p (x, y) - \ln p (x) p (y)]

$I(X,Y) = E\left (\ln \frac{p(x,y)}{p(x)p(y)}\right)=\sum_{x,y}p(x,y)\left[\ln p(x,y)-\ln p(x)p(y)\right]$

$\operatorname{Cov}(X,Y)$ $I(X,Y)$

$I(X,Y)$ $\operatorname{Cov}(X,Y)$

Die beiden sind also keine Gegensätze - sie ergänzen sich und beschreiben verschiedene Aspekte der Assoziation zwischen zwei Zufallsvariablen. Man könnte kommentieren, dass die gegenseitige Information "nicht betroffen" ist, ob die Assoziation linear ist oder nicht, während die Kovarianz Null sein kann und die Variablen immer noch stochastisch abhängig sind. Andererseits kann die Kovarianz direkt aus einer Datenstichprobe berechnet werden, ohne dass die beteiligten Wahrscheinlichkeitsverteilungen tatsächlich bekannt sein müssen (da es sich um einen Ausdruck handelt, der Momente der Verteilung umfasst), während die gegenseitigen Informationen die Kenntnis der Verteilungen erfordern, deren Schätzung, falls zutreffend Unbekannt ist eine viel heiklere und ungewissere Arbeit im Vergleich zur Schätzung der Kovarianz.

— Alecos Papadopoulos
quelle

@ Alecos Papadopoulos; Vielen Dank für Ihre umfassende Antwort.

— SaZa

1

Ich habe mir die gleiche Frage gestellt, aber ich habe die Antwort nicht vollständig verstanden. @ Alecos Papadopoulos: Ich habe verstanden, dass die gemessene Abhängigkeit nicht dieselbe ist, okay. Für welche Art von Beziehungen zwischen X und Y sollten wir also die gegenseitige Information I (X, Y) gegenüber Cov (X, Y) bevorzugen? Ich hatte kürzlich ein seltsames Beispiel, in dem Y fast linear von X abhing (es war fast eine gerade Linie in einem Streudiagramm) und Corr (X, Y) gleich 0,87 war, während I (X, Y) gleich 0,45 war . Gibt es also eindeutig Fälle, in denen ein Indikator über dem anderen ausgewählt werden sollte? Danke fürs Helfen!

— Gandhi91

X

$X$

H (X)

$H(X)$

Dies ist eine großartige und sehr klare Antwort. Ich habe mich gefragt, ob Sie ein leicht verfügbares Beispiel haben, in dem cov 0 ist, pmi jedoch nicht.

— thang

@thang. Nicht wirklich. Man sollte in der Lage sein, ein Beispiel zu finden, bei dem die Kovarianz Null ist und gleichzeitig die gemeinsame Verteilung verfügbar ist, um die gegenseitige Information zu berechnen (und die gemeinsame Verteilung wäre nicht das Produkt der Ränder, weil wir wollen, dass die Variablen nicht vorhanden sind unabhängig).

— Alecos Papadopoulos

7

Gegenseitige Information ist ein Abstand zwischen zwei Wahrscheinlichkeitsverteilungen. Die Korrelation ist ein linearer Abstand zwischen zwei Zufallsvariablen.

Sie können eine gegenseitige Information zwischen zwei Wahrscheinlichkeiten haben, die für einen Satz von Symbolen definiert sind, während Sie keine Korrelation zwischen Symbolen haben können, die auf natürliche Weise nicht in einen R ^ N-Raum abgebildet werden können.

Andererseits lassen die gegenseitigen Informationen keine Annahmen über einige Eigenschaften der Variablen zu. Wenn Sie mit Variablen arbeiten, die glatt sind, können Sie durch Korrelation mehr über sie erfahren. Zum Beispiel, wenn ihre Beziehung monoton ist.

Wenn Sie bereits über Informationen verfügen, können Sie möglicherweise von einer zu einer anderen wechseln. In Krankenakten können Sie die Symbole "hat Genotyp A" als 1 und "hat Genotyp A nicht" als 0- und 1-Werte zuordnen und feststellen, ob dies in irgendeiner Form mit der einen oder anderen Krankheit zusammenhängt. Ebenso können Sie eine stetige Variable (z. B. Gehalt) in diskrete Kategorien konvertieren und die gegenseitigen Informationen zwischen diesen Kategorien und einer anderen Gruppe von Symbolen berechnen.

— Pau Vilimelis Aceituno
quelle

Korrelation ist keine lineare Funktion. Sollte es heißen, dass die Korrelation ein Maß für die lineare Beziehung zwischen Zufallsvariablen ist?

— Matthew Gunn

1

Ich denke das: "Sie können eine gegenseitige Information zwischen zwei Wahrscheinlichkeiten haben, die für einen Satz von Symbolen definiert sind, während Sie keine Korrelation zwischen Symbolen haben können, die natürlich nicht in einen R ^ N-Raum abgebildet werden können", ist wahrscheinlich der Schlüssel. Corr macht keinen Sinn, wenn Sie keine vollständige Zufallsvariable haben. pmi macht jedoch auch mit nur pdf und sigma (dem Leerzeichen) Sinn. Aus diesem Grund wird in vielen Anwendungen, in denen Wohnmobile keinen Sinn machen (z. B. NLP), PMI verwendet.

— Do

6

Hier ist ein Beispiel.

In diesen beiden Darstellungen ist der Korrelationskoeffizient Null. Aber wir können hohe gemeinsame gegenseitige Informationen erhalten, selbst wenn die Korrelation Null ist.

Im ersten Beispiel sehe ich, dass wenn ich einen hohen oder niedrigen Wert von X habe, ich wahrscheinlich einen hohen Wert von Y bekomme. Aber wenn der Wert von X moderat ist, dann habe ich einen niedrigen Wert von Y. Das erste Diagramm enthält Informationen über die gegenseitigen Informationen, die X und Y gemeinsam haben. Im zweiten Diagramm sagt X nichts über Y aus.

— dennislendrem
quelle

4

Obwohl beide ein Maß für die Beziehung zwischen Merkmalen sind, ist der MI allgemeiner als der Korrelationskoeffizient (CE), da der CE nur lineare Beziehungen berücksichtigen kann, der MI jedoch auch nichtlineare Beziehungen verarbeiten kann.

— Hossein9
quelle

Das ist nicht wahr. Der Pearson-Korrelationskoeffizient geht von der Normalität und Linearität zweier Zufallsvariablen aus, Alternativen wie die nicht-parametrischen Spearmans nicht. Es wird nur eine Monotonie zwischen den beiden RV angenommen.

— Miau