Eine wahrscheinlich sehr grundlegende Frage zur multifaktoriellen ANOVA. Nehmen Sie ein Zweiwege-Design an, bei dem wir sowohl die Haupteffekte A, B als auch die Wechselwirkung A: B testen. Beim Testen des Haupteffekts für A mit Typ I SS wird der Effekt SS als Differenz berechnet , wobei die verbleibende Fehlersumme der Quadrate für das Modell mit nur dem Achsenabschnitt ist. und das RSS für das Modell mit dem hinzugefügten Faktor A. Meine Frage betrifft die Wahl für den Fehlerbegriff:
Wie rechtfertigen Sie, dass der Fehlerterm für diesen Test in der Regel aus dem RSS des Vollmodells A + B + A: B berechnet wird, das sowohl die Haupteffekte als auch die Interaktion umfasst?
... anstatt den Fehlerbegriff aus dem uneingeschränkten Modell aus dem tatsächlichen Vergleich zu nehmen (RSS nur aus dem Haupteffekt A im obigen Fall):
Dies macht einen Unterschied, da der Fehlerterm aus dem Vollmodell im Vergleich wahrscheinlich oft (nicht immer) kleiner ist als der Fehlerterm aus dem uneingeschränkten Modell. Es scheint, dass die Wahl für den Fehlerbegriff etwas willkürlich ist, wodurch Platz für gewünschte p-Wert-Änderungen geschaffen wird, indem nur Faktoren hinzugefügt / entfernt werden, die nicht wirklich von Interesse sind, aber der Fehlerbegriff trotzdem geändert wird.
Im folgenden Beispiel ändert sich der F-Wert für A in Abhängigkeit von der Auswahl für das vollständige Modell erheblich, obwohl der tatsächliche Vergleich für den Effekt SS gleich bleibt.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
Die gleiche Frage gilt für Typ II SS und im Allgemeinen für eine allgemeine lineare Hypothese, dh für einen Modellvergleich zwischen einem eingeschränkten und einem uneingeschränkten Modell innerhalb eines vollständigen Modells. (Für Typ III SS ist das uneingeschränkte Modell immer das vollständige Modell, sodass die Frage dort nicht auftaucht.)
IV1
(1. Beispiel) enthält, dann sind die beiden Ausdrücke für den Nenner identisch. Wenn jedoch das vollständige Modell zusätzliche Effekte enthält, der Nenner für die Prüfung ändert , obwohl der Modellvergleich ( vs. für Typ - 1 - SS) nicht. In den 3 Beispielen ändert sich das mittlere Quadrat für nicht (in allen Fällen der gleiche Modellvergleich), der mittlere quadratische Fehler jedoch. Mich interessiert, was den sich ändernden Fehlerbegriff rechtfertigt, wenn der tatsächliche Vergleich gleich bleibt. ~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))