Kann der MIC-Algorithmus zur Erkennung nichtlinearer Korrelationen intuitiv erklärt werden?


20

Kürzlich habe ich zwei Artikel gelesen. Erstens geht es um die Geschichte der Korrelation und zweitens um die neue Methode mit dem Namen Maximal Information Coefficient (MIC). Ich benötige Ihre Hilfe zum Verständnis der MIC-Methode zur Schätzung nichtlinearer Korrelationen zwischen Variablen.

Eine Anleitung zur Verwendung in R finden Sie außerdem auf der Website des Autors (unter Downloads ):

Ich hoffe, dies wäre eine gute Plattform, um diese Methode zu diskutieren und zu verstehen. Mein Interesse, eine Intuition hinter dieser Methode zu diskutieren und wie sie, wie der Autor sagte, erweitert werden kann.

" ... wir brauchen Erweiterungen von MIC (X, Y) zu MIC (X, Y | Z). Wir werden wissen wollen, wie viele Daten benötigt werden, um stabile Schätzungen von MIC zu erhalten, wie anfällig es für Ausreißer ist, welche drei - oder höherdimensionale Beziehungen, die es vermissen wird, und mehr. MIC ist ein großer Schritt nach vorne, aber es gibt noch viele weitere Schritte zu unternehmen. "


Die Frage ist interessant, aber ich denke, es ist nicht zu beantworten. Können Sie es bitte präzisieren?
mpiktas

3
Die Diskussion wird dadurch behindert, dass der Artikel in Science kein Open Access ist.
Itamar

7
Hier ist eine Kopie des von einem der Autoren befreiten Papiers.

10
Kurz gesagt, MIC ist eine Ausgrabung der alten Idee von "Plot-all-scatterplots-and-peak-those-with-greatest-white-area". Sie erzeugt hauptsächlich falsche Positive und hat eine irreale Komplexität von (die Autoren verstecken sich hinter der Heuristik "Nur-Test-einige-zufällig-ausgewählte-Paare"). O(M2)

4
Für technische Details zum MIC ist das unterstützende Online-Material informativer als der Artikel selbst.
Res

Antworten:


22

Ist es nicht aussagekräftig, dass dies in einer nicht statistischen Zeitschrift veröffentlicht wurde, deren statistische Begutachtung unsicher ist? Dieses Problem wurde 1948 von Höffding (Annals of Mathematical Statistics 19: 546) gelöst, der einen einfachen Algorithmus entwickelte, der weder ein Binning noch mehrere Schritte erfordert. Hoeffdings Arbeit wurde nicht einmal im Science-Artikel erwähnt. Dies ist seit vielen Jahren in der R- hoeffdFunktion im HmiscPaket. Hier ist ein Beispiel (geben Sie example(hoeffd)R ein):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdverwendet eine ziemlich effiziente Fortran-Implementierung der Hoeffding-Methode. Die Grundidee seines Tests besteht darin, den Unterschied zwischen den gemeinsamen Rängen von X und Y und dem Produkt aus dem Grenzrang von X und dem Grenzrang von Y in geeigneter Skalierung zu berücksichtigen.

Aktualisieren

D

HmiscD|F(x,y)G(x)H(y)|D


6
(+1) Hoeffdings Artikel ist online verfügbar.
Res

1
Schöner Fund. Könnte für die Wissenschaft eine kurze Anmerkung wert sein, wenn sie die Leistung von Höffding mit ihrer vergleicht. Es ist schade, dass viele gute Studien (in vielen Bereichen) aus den 50er Jahren im Laufe der Jahre vergessen wurden.
Itamar

6

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

Die Hauptidee der Autoren besteht darin, die Daten in viele verschiedene zweidimensionale Gitter zu diskretisieren und normalisierte Punktzahlen zu berechnen, die die gegenseitige Information der beiden Variablen in jedem Gitter darstellen. Die Werte werden normalisiert, um einen fairen Vergleich zwischen verschiedenen Rastern zu gewährleisten, und variieren zwischen 0 (nicht korreliert) und 1 (hohe Korrelationen).

R2


3

Ich fand zwei gute Artikel, die die Idee von MIC genauer erläuterten, insbesondere diesen ; hier der zweite .

Wie ich anhand dieser Lektüre verstanden habe, können Sie unterschiedliche Komplexitäten und Skalen von Beziehungen zwischen zwei Variablen vergrößern, indem Sie verschiedene Kombinationen von Gittern untersuchen. Diese Gitter werden verwendet, um den zweidimensionalen Raum in Zellen aufzuteilen. Durch Auswahl des Rasters, das die meisten Informationen darüber enthält, wie die Zellen den Raum aufteilen, den Sie für das MIC auswählen.

Ich möchte @mbq fragen, ob er das, was er "Plot-all-scatterplots-and-peak-those-with-greatest-white-area" nennt, und die unwirkliche Komplexität von O (M2) erweitern könnte.


4
Ich mache mir Sorgen über jede statistische Methode, die Binning verwendet.
Frank Harrell

@FrankHarrell Kannst du Referenzen oder eine Intuition angeben, welche Details warum das Binning schlecht ist? Intuitiv kann ich sehen, dass Sie im Wesentlichen Informationen aufgrund von Binning wegwerfen, aber es muss mehr Gründe geben, warum?
Kiran K.

Es gibt zu viele Referenzen, um zu wissen, wo man anfangen soll. Keine statistische Methode, die auf Binning basiert, überlebt letztendlich. Willkür ist eines von vielen Problemen.
Frank Harrell

@FrankHarrell Schätzen Sie den Kommentar. Ich habe um Referenzen gebeten, weil ich Doktorandin bin und mich gerade mit Abhängigkeits- und multivariaten Abhängigkeitskonzepten befasse. Ich würde diese Artikel gerne lesen und sie in meinen eigenen Arbeiten zitieren. Wenn Sie einen oder zwei Prominente erwähnen könnten, bin ich sicher, dass ich die verbleibenden finden kann, die Sie erwähnen. Wenn ich gute finde, werde ich hier auch ein paar Grab- und Postverweise veröffentlichen.
Kiran K.

Beginnen Sie mit citeulike.org/user/harrelfe/article/13265458 dann weitere Informationen über Dichotomisierung bei biostat.mc.vanderbilt.edu/CatContinuous . Für eine allgemeine Abhängigkeitsmaßnahme, die kein Binning erfordert, verpassen Sie
Frank Harrell
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.