Wie teste ich, dass zwei stetige Variablen unabhängig sind?

48

Angenommen , ich habe eine Probe aus der gemeinsamen Verteilung von und . Wie teste ich die Hypothese , dass und sind unabhängig ? $(X_n,Y_n), n=1..N$ $X$ $Y$ $X$ $Y$

Es wird keine Annahme über die Gelenk- oder Randverteilungsgesetze von und (am allerwenigsten die Gelenknormalität, da in diesem Fall die Unabhängigkeit mit der Korrelation identisch ist ). $X$ $Y$ $0$

Es wird keine Annahme über die Art einer möglichen Beziehung zwischen und ; Es kann nichtlinear sein, daher sind die Variablen nicht korreliert ( ), aber stark koabhängig ( ). $X$ $Y$ $r=0$ $I=H$

Ich sehe zwei Ansätze:

Bin beide Variablen und benutze Fischers genauen Test oder G-Test .
- Pro: Verwenden Sie gut etablierte statistische Tests
- Con: hängt vom Binning ab
Schätzen Sie die Abhängigkeit von und : (dies ist für unabhängiges und und wenn sie sich vollständig bestimmen). $X$ $Y$ $\frac{I(X;Y)}{H(X,Y)}$ $0$ $X$ $Y$ $1$
- Pro: Erzeugt eine Zahl mit einer klaren theoretischen Bedeutung
- Con: hängt von der ungefähren Entropieberechnung ab (dh erneutes Binning)

Sind diese Ansätze sinnvoll?

Welche anderen Methoden wenden die Leute an?

hypothesis-testing references independence

— sds
quelle

3

Untersuchen Sie die Entfernungskorrelation .

— Ray Koopman

@RayKoopman: danke, ich lese gerade Abhängigkeit durch Korrelation von Entfernungen messen und testen !

— SDS

1

Die Abhängigkeit ist nicht sinnvoll, wenn von stetigen Variablen gesprochen wird. Kontinuierliche Variablen haben eine unendliche Entropie. Hier kann die Differentialentropie nicht durch , da die Differentialentropie nicht mit der gegenseitigen Information vergleichbar ist. Während die gegenseitige Information eine "absolute" Bedeutung hat, kann die Differentialentropie positiv, null oder sogar negativ sein, abhängig von den Einheiten, die Sie zum Messen der Variablen und .

I (X; Y) / H (X; Y)

$I\left(X;Y\right)/H\left(X;Y\right)$

H

$H$

X

$X$

Y

$Y$

— Fonini

@fonini: Natürlich habe ich über gebündelte Variablen gesprochen. Vielen Dank für Ihren Kommentar.

— SDS

27

Dies ist im Allgemeinen ein sehr schweres Problem, obwohl Ihre Variablen anscheinend nur 1d sind, was hilft. Natürlich sollte der erste Schritt (wenn möglich) darin bestehen, die Daten zu zeichnen und festzustellen, ob etwas auf Sie zukommt. Du bist in 2D, das sollte also einfach sein.

Hier sind einige Ansätze, die in oder noch allgemeineren Einstellungen funktionieren : $\mathbb{R}^n$

Wie Sie bereits erwähnt haben, schätzen Sie die gegenseitige Information über Entropien. Dies ist möglicherweise die beste Option. Schätzer auf der Basis des nächsten Nachbarn sind in niedrigen Dimensionen in Ordnung, und selbst Histogramme sind in 2d nicht schrecklich. Wenn Sie sich Sorgen über Schätzfehler machen, ist dieser Schätzer einfach und gibt Ihnen Grenzen für endliche Stichproben (die meisten anderen beweisen nur asymptotische Eigenschaften):

Sricharan, Raich und Hero. Empirische Abschätzung von Entropiefunktionalen mit Sicherheit. arXiv: 1012.4188 [math.ST]

Alternativ gibt es ähnliche direkte Schätzer zur gegenseitigen Information, z

Pál, Póczos und Svepesári. Schätzung der Rényi-Entropie und der wechselseitigen Informationen auf der Grundlage von verallgemeinerten Nächsten-Nachbarn-Diagrammen , NIPS 2010.
Das Hilbert-Schmidt-Unabhängigkeitskriterium: ein kernelbasierter Ansatz (im Sinne von RKHS, nicht KDE).

Gretton, Bousqet, Smola und Schölkopf, Messung der statistischen Unabhängigkeit mit Hilbert-Schmidt-Normen , Algorithmic Learning Theory 2005.
Der Schweizer-Wolff-Ansatz: basiert auf Copula-Transformationen und ist daher für monoton zunehmende Transformationen unveränderlich. Ich bin nicht sehr vertraut mit diesem, aber ich denke, es ist rechnerisch einfacher, aber vielleicht auch weniger leistungsfähig.

Schweizer und Wolff über nichtparametrische Abhängigkeitsmaße für Zufallsvariablen , Annals of Statistics 1981.

— Dougal
quelle

Können Sie kurz erwähnen, wie diese Ansätze mit der Distanzkorrelation verglichen werden ? Ich benutze DC, um große Datensätze zu sichten (na ja, groß für mich), daher bin ich an allen Kommentaren interessiert, die Sie möglicherweise haben. Vielen Dank!

— Pteetor

1

@pteetor Das ist interessant, ich war noch nie auf Distanzkorrelation gestoßen. Aus rechnerischer Sicht scheint es teurer zu sein als der Entropieschätzungsansatz für große Stichproben, da Sie die Matrizen für den vollen Abstand benötigen (für die Entropieschätzer können Sie Indizes verwenden, um nur die ersten kNachbarn zu erhalten). Keine Ahnung, wie es in Bezug auf statistische Leistung / etc. vergleicht

— Dougal

4

Für spätere Leser: Das 2013 erschienene Paper Equivalence of Distance-based and RKHS-based Statistics in Hypothesentests von Sejdinovic et al. zeigt, dass Entfernungskorrelation und andere Energiedistanzen bestimmte Fälle von MMD sind, der zugrunde liegenden Maßnahme hinter HSIC, und diskutiert die Beziehung in Bezug auf die Testleistung und so weiter.

— Dougal

18

Hoeffding entwickelte einen allgemeinen nichtparametrischen Test für die Unabhängigkeit zweier stetiger Variablen unter Verwendung gemeinsamer Reihen, um zu testen . Dieser Test von 1948 ist in der Funktion des R- Pakets implementiert . $H_{0}: H(x,y) = F(x)G(y)$ Hmischoeffd

— Frank Harrell
quelle

6

Wie wäre es mit diesem Papier:

http://arxiv.org/pdf/0803.4101.pdf

"Messen und Testen der Abhängigkeit durch Korrelation von Entfernungen". Székely und Bakirov haben immer interessante Sachen.

Es gibt Matlab-Code für die Implementierung:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Wenn Sie einen anderen (einfach zu implementierenden) Test für die Unabhängigkeit finden, lassen Sie es uns wissen.

— JLp
quelle

2

Willkommen auf der Seite, @JLp. Wir hoffen, ein dauerhaftes Repository mit hochwertigen statistischen Informationen in Form von Fragen und Antworten aufzubauen. Eine Sache, die uns Sorgen macht, ist Linkrot. Könnten Sie in diesem Zusammenhang eine Zusammenfassung dessen geben, was in diesem Artikel steht, und wie die Fragen beantwortet werden, falls der Link nicht mehr funktioniert? Es wird auch zukünftigen Lesern dieses Themas helfen, zu entscheiden, ob sie die Zeit investieren möchten, um die Zeitung zu lesen.

— gung - Wiedereinsetzung von Monica

@gung: das ist das selbe wie bei energy

— sds 27.10.13

5

Die Verbindung zwischen Distanz-Kovarianz- und Kernel-Tests (basierend auf dem Hilbert-Schmidt-Unabhängigkeitskriterium) wird in der Veröffentlichung angegeben:

Sejdinovic, D., Sriperumbudur, B., Gretton, A. und Fukumizu, K., Äquivalenz von entfernungsbasierter und RKHS-basierter Statistik bei Hypothesentests, Annals of Statistics, 41 (5), S. 2263-2702, 2013

Es wird gezeigt, dass die Distanz-Kovarianz ein Sonderfall der Kernel-Statistik für eine bestimmte Familie von Kerneln ist.

Wenn Sie beabsichtigen, gegenseitige Informationen zu verwenden, lautet ein Test, der auf einer zusammengefassten Schätzung des MI basiert, wie folgt:

Gretton, A. und Gyorfi, L., Consistent Nonparametric Tests of Independence, Journal of Machine Learning Research, 11, S. 1391–1423, 2010.

Wenn Sie an der bestmöglichen Testleistung interessiert sind, sollten Sie lieber die Kerneltests verwenden, als Binning und gegenseitige Informationen.

Angesichts der Tatsache, dass Ihre Variablen univariat sind, sind klassische nichtparametrische Unabhängigkeitstests wie der von Höffding wahrscheinlich in Ordnung.

— Arthur Gretton
quelle

4

In Statistiken können Sie selten (nie?) Nachweisen, dass Ihre Beispielstatistik ein Punktwert ist. Sie können anhand von Punktwerten testen und diese entweder ausschließen oder nicht ausschließen. In der Statistik geht es jedoch darum, variable Daten zu untersuchen. Da es immer Abweichungen gibt, gibt es zwangsläufig keine Möglichkeit zu erkennen, dass etwas nicht genau verwandt, normal, gaußartig usw. ist. Sie können nur einen Bereich von Werten dafür kennen. Sie könnten wissen, ob ein Wert aus dem Bereich plausibler Werte ausgeschlossen ist. Zum Beispiel ist es einfach, keine Beziehung auszuschließen und einen Wertebereich für die Größe der Beziehung anzugeben.

Daher wird der Versuch, keine Beziehung zu demonstrieren, im Wesentlichen den Punktwert von relationship = 0nicht zum Erfolg führen. Wenn Sie eine Reihe von Beziehungsmaßen haben, die mit ungefähr 0 akzeptabel sind, ist es möglich, einen Test zu erstellen.

Unter der Annahme, dass Sie diese Einschränkung akzeptieren können, wäre es für Personen hilfreich, die Ihnen bei der Erstellung eines Streudiagramms mit einer Kurve mit geringer Abweichung behilflich sind. Da Sie nach R-Lösungen suchen, versuchen Sie:

scatter.smooth(x, y)

Aufgrund der begrenzten Informationen, die Sie bisher angegeben haben, denke ich, dass ein verallgemeinertes additives Modell das Beste ist, um die Nichtunabhängigkeit zu testen. Wenn Sie das mit CIs um die vorhergesagten Werte zeichnen, können Sie möglicherweise Aussagen über den Glauben an Unabhängigkeit treffen. Schauen Sie sich gamdas mgcv-Paket an. Die Hilfe ist recht gut und es gibt hier Unterstützung in Bezug auf das CI .

— John
quelle

2

Es könnte interessant sein ...

Garcia, JE; Gonzalez-Lopez, VA (2014) Unabhängigkeitstests für kontinuierliche Zufallsvariablen basierend auf der am längsten zunehmenden Teilsequenz. Journal of Multivariate Analysis, v. 127 p. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335

— user78122
quelle

2

Dieser Beitrag würde von mehr Details über das, was in dem Artikel steht, profitieren, insbesondere da es sich um eine Paywall handelt.

— Erik

Dies ist kostenlos cran.r-project.org/web/packages/LIStest/LIStest.pdf

— user78122