Kollinearität zwischen kategorialen Variablen

11

Es gibt viel über Kollinearität in Bezug auf kontinuierliche Prädiktoren, aber nicht so viel, was ich bei kategorialen Prädiktoren finden kann. Ich habe Daten dieses Typs unten abgebildet.

Der erste Faktor ist eine genetische Variable (Allelzahl), der zweite Faktor ist eine Krankheitskategorie. Offensichtlich gehen die Gene der Krankheit voraus und sind ein Faktor, der Symptome zeigt, die zu einer Diagnose führen. Eine regelmäßige Analyse unter Verwendung von Quadratsummen vom Typ II oder III, wie sie üblicherweise bei Psychologen mit SPSS durchgeführt wird, übersieht jedoch den Effekt. Eine Quadratsummenanalyse vom Typ I nimmt sie auf, wenn die entsprechende Reihenfolge eingegeben wird, da sie auftragsabhängig ist. Ferner gibt es wahrscheinlich zusätzliche Komponenten des Krankheitsprozesses, die nicht mit dem Gen zusammenhängen und nicht gut mit Typ II oder III identifiziert sind, siehe Anova (lm1) unten gegenüber lm2 oder Anova.

Beispieldaten:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")

lm1 mit Typ I SS scheint mir der geeignete Weg zu sein, um die Daten unter Berücksichtigung der Hintergrundtheorie zu analysieren. Ist meine Annahme richtig?
Ich bin es gewohnt, orthogonale Designs explizit zu manipulieren, bei denen diese Probleme normalerweise nicht auftreten. Ist es schwierig, Gutachter davon zu überzeugen, dass dies der beste Prozess ist (vorausgesetzt, Punkt 1 ist korrekt), im Kontext eines SPSS-zentrierten Feldes?
Und was ist im Statistikbereich zu berichten? Irgendwelche zusätzlichen Analysen oder Kommentare, die eingehen sollten?

— Matt Albrecht
quelle

Es ist überraschend zu hören, dass jemand, der SPSS verwendet, nur SS vom Typ III oder II kennt. Und du klingst so.

— ttnphns

2

Nun, ich hatte früher die gleiche Wissenslücke, auf die ich mich in meiner Frage beziehe. Es scheint eher ein Spiegelbild der Interessen, des Wissens und der Art und Weise zu sein, wie Menschen in die Software eingeführt werden, als die Software selbst. Aber auch Standardoptionen spielen eine große Rolle, da die Standardoption Typ III in SPSS verwendet wird.

— Matt Albrecht

Sie scheinen zu sagen, dass Sie mithilfe des Anova-Verfahrens von SPSS (unianova?) 2 Prädiktoren in einer bestimmten Reihenfolge eingeben können. Ich kenne nur eine Möglichkeit, die Reihenfolge durch Umschalten auf das Regressionsverfahren festzulegen. Wie erreichen Sie das?

— Rolando2

8

Die Kollinearität zwischen Faktoren ist ziemlich kompliziert. Das klassische Beispiel ist das, das Sie erhalten, wenn Sie die drei kontinuierlichen Variablen 'Alter', 'Zeitraum' und 'Jahr' gruppieren und Dummy-codieren. Es wird analysiert in:

Kupper, LL, Janis, JM, Salama, IA, Yoshizawa, CN Greenberg, BG & Winsborough, HH (1983). Altersperioden-Kohorten-Analyse: Ein Beispiel für die Probleme bei der Bewertung der Interaktion in einer Beobachtung pro Zelldaten , Communicatios in Statistics - Theory and Methods , 12, 23, S. 201-217.

Die Koeffizienten, die Sie nach dem Entfernen von vier (nicht drei) Referenzen erhalten, werden nur bis zu einem unbekannten linearen Trend identifiziert. Dies kann analysiert werden, da die Kollinearität aus einer bekannten Kollinearität in den Quellvariablen (Alter + Jahr = Zeitraum) resultiert.

Einige Arbeiten wurden auch zur falschen Kollinearität zwischen zwei Faktoren durchgeführt. Es wurde analysiert in:

Eccleston, JA & amp; Hedayat, A. (1974). Zur Theorie der verbundenen Entwürfe: Charakterisierung und Optimalität , The Annals of Statistics , 2, 6, S. 1238-1255.

Das Ergebnis ist, dass Kollinearität zwischen kategorialen Variablen bedeutet, dass der Datensatz in getrennte Teile mit einem Referenzpegel in jeder Komponente aufgeteilt werden muss. Geschätzte Koeffizienten aus verschiedenen Komponenten können nicht direkt verglichen werden.

Bei komplizierteren Kollinearitäten zwischen drei oder mehr Faktoren ist die Situation kompliziert. Es gibt Verfahren zum Finden schätzbarer Funktionen, dh lineare Kombinationen der Koeffizienten, die interpretierbar sind, z. B.:

"Über die Konnektivität von Zeilen-Spalten-Designs" von Godolphin und Godolphin in Utilitas Mathematica (60), S. 51-65

Meines Wissens gibt es jedoch keine allgemeine Silberkugel für den intuitiven Umgang mit solchen Kollinearitäten.

— Simen Gaure
quelle

1

Nach einem Gespräch mit einigen der Statistik-Leute in der Umgebung. Es scheint, dass diese Art von Frage möglicherweise nicht die richtigste Frage ist, die zu beantworten ist. Die Verwendung von ANOVA (oder ähnlichen Methoden) zur Untersuchung genetischer und diagnostischer Wechselwirkungen bei neuropsychologischen Maßnahmen, wenn diese stark korrelieren, ist eine schwierige Frage. Ich wurde stattdessen darauf hingewiesen, die Struktur der Daten mit Strukturgleichungsmodellierung zu untersuchen.

Diese Antwort wird aktualisiert, sobald ich mehr über SEM erfahre.

— Matt Albrecht
quelle