Warum verwenden Statistiker gegenseitige Informationen nicht als Maß für die Assoziation?


10

Ich habe ein paar Gespräche von Nicht-Statistikern gesehen, in denen sie Korrelationsmaße offenbar neu erfinden, indem sie gegenseitige Informationen anstelle von Regression (oder gleichwertigen / eng verwandten statistischen Tests) verwenden.

Ich nehme an, es gibt einen guten Grund, warum Statistiker diesen Ansatz nicht verfolgen. Mein Laie versteht, dass Schätzer von Entropie / gegenseitiger Information problematisch und instabil sind. Ich gehe davon aus, dass die Stromversorgung auch problematisch ist: Sie versuchen, dies zu umgehen, indem sie behaupten, dass sie kein parametrisches Testframework verwenden. Normalerweise stört diese Art von Arbeit nicht die Leistungsberechnung oder sogar das Vertrauen / die glaubwürdigen Intervalle.

Aber um die Position eines Teufels zu vertreten, ist langsame Konvergenz eine so große Sache, wenn die Datensätze extrem groß sind? Manchmal scheinen diese Methoden auch in dem Sinne zu "funktionieren", dass die Assoziationen durch Folgestudien validiert werden. Was ist die beste Kritik gegen die Verwendung gegenseitiger Informationen als Assoziationsmaß und warum wird sie in der statistischen Praxis nicht häufig verwendet?

edit: Gibt es auch gute Papiere, die diese Themen behandeln?


3
MI ist ein Maß für die Assoziation zwischen zwei diskreten Variablen. Es ist nicht wirklich üblich, eine Einstellung in der allgemeinen Statistik zu verwenden (könnte in einigen speziellen Unterfeldern sein). Aber innerhalb dieser Einstellung sehe ich, dass es häufig genug verwendet wird. Wenn ich auf angewandte Personen treffe, die Pearson-Korrelation für bivariate diskrete Datensätze verwenden, weise ich sie auf MI hin.
user603

1
Siehe auch stats.stackexchange.com/questions/1052/…. Die Diskussion hier ist jedoch meiner Ansicht nach bereits gut oder besser, sodass die übliche Frage zu Duplikaten strittig ist.
Nick Cox

Auch für Referenzen siehe stats.stackexchange.com/q/20011/1036
Andy W

2
Eine weitere allgemeine Referenz ist Matthew Reimherr und Dan L. Nicolae. 2013. Zur Quantifizierung der Abhängigkeit: Ein Rahmen für die Entwicklung interpretierbarer Maßnahmen. Statistical Science 28: 116 & ndash; 130.
Nick Cox

Antworten:


4

Ich denke, Sie sollten zwischen kategorialen (diskreten) Daten und kontinuierlichen Daten unterscheiden.

Für kontinuierliche Daten misst die Pearson-Korrelation eine lineare (monotone) Beziehung, die Rangkorrelation eine monotone Beziehung.

MI "erkennt" andererseits jede Beziehung. Dies ist normalerweise nicht das, woran Sie interessiert sind und / oder was wahrscheinlich Lärm ist. Insbesondere müssen Sie die Dichte der Verteilung schätzen. Da es jedoch kontinuierlich ist, würden Sie zuerst ein Histogramm [diskrete Bins] erstellen und dann den MI berechnen. Da MI jedoch jede Beziehung zulässt, ändert sich der MI, wenn Sie kleinere Bins verwenden (dh, Sie lassen mehr Wackelbewegungen zu). Sie können also sehen, dass die Schätzung des MI sehr instabil ist, sodass Sie keine Konfidenzintervalle für die Schätzung usw. festlegen können. [Gleiches gilt, wenn Sie eine kontinuierliche Dichteschätzung durchführen.] Grundsätzlich gibt es zu viele Dinge, die vor der eigentlichen Berechnung geschätzt werden müssen der MI.

Kategoriale Daten passen dagegen recht gut in das MI-Framework (siehe G-Test), und es gibt nicht viel zwischen G-Test und Chi-Quadrat zu wählen.


Ich beziehe mich hauptsächlich auf Fälle diskreter Assoziation (durch Regression hatte ich GLMs im Sinn, nicht nur OLS). Tatsächlich könnten viele Wissenschaftler, die komplexe Phänomene (z. B. Genetik) untersuchen, sagen, dass sie mehr an dem interessiert sind, was Sie beschreiben (erkennen Sie eine Beziehung). Die Verlockung, der offensichtlichen allgemeinen Kritik zu entkommen: "Was ist, wenn die funktionale Form der Korrelation falsch ist? Natürlich möchte ich eine Beziehung erkennen!" ist stark. Ich denke jedoch, dass hier ein Irrtum ohne kostenloses Mittagessen im Spiel ist, aber das würde übersehen werden, dass ich versuche, besser zu artikulieren / zu verstehen.
user4733

1
... Ich war mir der Beziehung zwischen LR-Tests und MI nicht bewusst, das ist sehr interessant!
user4733
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.