Bewertung der Multikollinearität dichotomer Prädiktorvariablen


8

Ich arbeite an einem Projekt, in dem wir das Verhalten einer Aufgabe beobachten (z. B. Reaktionszeit) und dieses Verhalten als Funktion mehrerer experimentell manipulierter Variablen sowie mehrerer beobachteter Variablen (Geschlecht der Teilnehmer, IQ der Teilnehmer, Antworten auf eine Folge) modellieren. Fragebogen). Ich habe keine Bedenken hinsichtlich der Multikollinearität zwischen den experimentellen Variablen, da sie speziell manipuliert wurden, um unabhängig zu sein, aber ich bin besorgt über die beobachteten Variablen. Ich bin mir jedoch nicht sicher, wie ich die Unabhängigkeit zwischen den beobachteten Variablen beurteilen soll, teilweise, weil ich je nach Einrichtung des Bewerters etwas unterschiedliche Ergebnisse zu erzielen scheine, und auch, weil ich mit der Korrelation in dem Kontext, in dem eine oder eine sehr wenig vertraut ist, nicht sehr vertraut bin Beide Variablen sind dichotom.

Zum Beispiel gibt es zwei verschiedene Ansätze, um festzustellen, ob das Geschlecht vom IQ unabhängig ist. Ich bin kein Fan von Nullhypothesen-Signifikanztests, daher baue ich in beiden Ansätzen zwei Modelle, eines mit und eines ohne Beziehung, und berechne dann das AIC-korrigierte Log-Likelihood-Verhältnis:

m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)

m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)

Diese Ansätze liefern jedoch etwas andere Antworten; LLR1 ist ungefähr 7, was auf starke Beweise für eine Beziehung hindeutet, während LLR2 ungefähr 0,3 ist, was auf sehr schwache Beweise für eine Beziehung hindeutet.

Wenn ich versuche, die Unabhängigkeit zwischen Geschlecht und einer anderen dichotomen beobachteten Variablen, "yn", zu bewerten, hängt das resultierende LLR in ähnlicher Weise davon ab, ob ich die Modelle zur Vorhersage des Geschlechts von yn oder zur Vorhersage von yn vom Geschlecht eingerichtet habe.

Irgendwelche Vorschläge, warum diese Unterschiede auftreten und wie am vernünftigsten vorgegangen werden soll?


Ist seqin Ihrem Code ein Tippfehler für sex? Wenn Sie Ihren
Analysecode kopiert haben

Hoppla, das ist nur ein Tippfehler in dem Code, den ich oben aufgenommen habe. In meinem eigentlichen Code hatte ich keinen Tippfehler. Danke, dass du das verstanden hast.
Mike Lawrence

Antworten:


3

Ich denke, Sie versuchen, P (A | B) und P (B | A) so zu interpretieren, als ob sie dasselbe sein sollten. Aufgrund der Produktregel gibt es keinen Grund, dass sie gleich sind:

P(AB)=P(A|B)P(B)=P(B|A)P(A)

P(B)=P(A)P(A|B)P(B|A)

Ein Test für "logische / statistische Unabhängigkeit" (aber nicht kausale Unabhängigkeit) zwischen kategorialen Variablen kann gegeben werden als:

T=ijOijlog(OijEij)

ijij=11,12,21,22OijEij

Eij=OOiOOjO=OiOjO

LILITEij=OijT=0Eij>0Sie müssen sich also keine Sorgen um eine "spärliche" Tabelle machen. Dieser Test liefert immer noch vernünftige Ergebnisse.

Für die Regressionen bedeutet dies, dass der durchschnittliche IQ-Wert zwischen den beiden Werten des Geschlechts unterschiedlich ist, obwohl ich die Skala des AIC-Unterschieds nicht kenne (ist das "groß"?).

Ich bin mir nicht sicher, wie angemessen der AIC für ein binomiales GLM ist. Es ist möglicherweise besser, sich die ANOVA- und Abweichungstabellen für LM und GLM anzusehen.

Haben Sie auch die Daten aufgezeichnet? Plotten Sie immer die Daten !!! Dies kann Ihnen Dinge sagen, die der Test nicht tut. Wie unterschiedlich sehen die IQs aus, wenn sie nach Geschlecht gezeichnet werden? Wie unterschiedlich sehen die Geschlechter aus, wenn sie vom IQ geplottet werden?


3

Warum machst du dir Sorgen um Multicolinearität? Der einzige Grund, warum wir diese Annahme bei der Regression benötigen, besteht darin, sicherzustellen, dass wir eindeutige Schätzungen erhalten. Multicolinearität ist nur dann für die Schätzung von Bedeutung, wenn sie perfekt ist - wenn eine Variable eine exakte lineare Kombination der anderen ist.

Wenn Ihre experimentell manipulierten Variablen zufällig zugewiesen wurden, sollten ihre Korrelationen mit den beobachteten Prädiktoren sowie den nicht beobachteten Faktoren (ungefähr) 0 sein. Diese Annahme hilft Ihnen dabei, unvoreingenommene Schätzungen zu erhalten.

Allerdings kann eine nicht perfekte Multicolinearität Ihre Standardfehler vergrößern, jedoch nur bei den Variablen, bei denen das Problem der Multicolinearität auftritt. In Ihrem Kontext sollten die Standardfehler der Koeffizienten Ihrer experimentellen Variablen nicht beeinflusst werden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.