Es gibt viel über Kollinearität in Bezug auf kontinuierliche Prädiktoren, aber nicht so viel, was ich bei kategorialen Prädiktoren finden kann. Ich habe Daten dieses Typs unten abgebildet.
Der erste Faktor ist eine genetische Variable (Allelzahl), der zweite Faktor ist eine Krankheitskategorie. Offensichtlich gehen die Gene der Krankheit voraus und sind ein Faktor, der Symptome zeigt, die zu einer Diagnose führen. Eine regelmäßige Analyse unter Verwendung von Quadratsummen vom Typ II oder III, wie sie üblicherweise bei Psychologen mit SPSS durchgeführt wird, übersieht jedoch den Effekt. Eine Quadratsummenanalyse vom Typ I nimmt sie auf, wenn die entsprechende Reihenfolge eingegeben wird, da sie auftragsabhängig ist. Ferner gibt es wahrscheinlich zusätzliche Komponenten des Krankheitsprozesses, die nicht mit dem Gen zusammenhängen und nicht gut mit Typ II oder III identifiziert sind, siehe Anova (lm1) unten gegenüber lm2 oder Anova.
Beispieldaten:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 mit Typ I SS scheint mir der geeignete Weg zu sein, um die Daten unter Berücksichtigung der Hintergrundtheorie zu analysieren. Ist meine Annahme richtig?
- Ich bin es gewohnt, orthogonale Designs explizit zu manipulieren, bei denen diese Probleme normalerweise nicht auftreten. Ist es schwierig, Gutachter davon zu überzeugen, dass dies der beste Prozess ist (vorausgesetzt, Punkt 1 ist korrekt), im Kontext eines SPSS-zentrierten Feldes?
- Und was ist im Statistikbereich zu berichten? Irgendwelche zusätzlichen Analysen oder Kommentare, die eingehen sollten?