Wie begründe ich den Fehlerterm in einer faktoriellen ANOVA?

13

Eine wahrscheinlich sehr grundlegende Frage zur multifaktoriellen ANOVA. Nehmen Sie ein Zweiwege-Design an, bei dem wir sowohl die Haupteffekte A, B als auch die Wechselwirkung A: B testen. Beim Testen des Haupteffekts für A mit Typ I SS wird der Effekt SS als Differenz berechnet , wobei die verbleibende Fehlersumme der Quadrate für das Modell mit nur dem Achsenabschnitt ist. und das RSS für das Modell mit dem hinzugefügten Faktor A. Meine Frage betrifft die Wahl für den Fehlerbegriff: $RSS(1) - RSS(A)$ $RSS(1)$ $RSS(A)$

Wie rechtfertigen Sie, dass der Fehlerterm für diesen Test in der Regel aus dem RSS des Vollmodells A + B + A: B berechnet wird, das sowohl die Haupteffekte als auch die Interaktion umfasst?

F_{A} = \frac{(R S S_{1} - R S S_{A}) / (d f_{R S S 1} - d f_{R S S A})}{R S S_{A + B + A : B} / d f_{R S S A + B + A : B}}

$F_{A} = \frac{(RSS_{1} - RSS_{A}) / (df_{RSS 1} - df_{RSS A})}{RSS_{A+B+A:B} / df_{RSS A+B+A:B}}$

... anstatt den Fehlerbegriff aus dem uneingeschränkten Modell aus dem tatsächlichen Vergleich zu nehmen (RSS nur aus dem Haupteffekt A im obigen Fall):

F_{A} = \frac{(R S S_{1} - R S S_{A}) / (d f_{R S S 1} - d f_{R S S A})}{R S S_{A} / d f_{R S S A}}

$F_{A} = \frac{(RSS_{1} - RSS_{A}) / (df_{RSS 1} - df_{RSS A})}{RSS_{A} / df_{RSS A}}$

Dies macht einen Unterschied, da der Fehlerterm aus dem Vollmodell im Vergleich wahrscheinlich oft (nicht immer) kleiner ist als der Fehlerterm aus dem uneingeschränkten Modell. Es scheint, dass die Wahl für den Fehlerbegriff etwas willkürlich ist, wodurch Platz für gewünschte p-Wert-Änderungen geschaffen wird, indem nur Faktoren hinzugefügt / entfernt werden, die nicht wirklich von Interesse sind, aber der Fehlerbegriff trotzdem geändert wird.

Im folgenden Beispiel ändert sich der F-Wert für A in Abhängigkeit von der Auswahl für das vollständige Modell erheblich, obwohl der tatsächliche Vergleich für den Effekt SS gleich bleibt.

> DV  <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+          56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+          43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)

> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1))                           # full model = unrestricted model (just A)
          Df  Sum Sq Mean Sq F value Pr(>F)
IV1        2  101.11  50.556  0.9342 0.4009
Residuals 42 2272.80  54.114

> anova(lm(DV ~ IV1 + IV2))                     # full model = A+B
          Df  Sum Sq Mean Sq F value   Pr(>F)    
IV1        2  101.11   50.56  1.9833   0.1509    
IV2        2 1253.19  626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61   25.49                     

> anova(lm(DV ~ IV1 + IV2 + IV1:IV2))           # full model = A+B+A:B
          Df  Sum Sq Mean Sq F value    Pr(>F)    
IV1        2  101.11   50.56  1.8102    0.1782    
IV2        2 1253.19  626.59 22.4357 4.711e-07 ***
IV1:IV2    4   14.19    3.55  0.1270    0.9717    
Residuals 36 1005.42   27.93

Die gleiche Frage gilt für Typ II SS und im Allgemeinen für eine allgemeine lineare Hypothese, dh für einen Modellvergleich zwischen einem eingeschränkten und einem uneingeschränkten Modell innerhalb eines vollständigen Modells. (Für Typ III SS ist das uneingeschränkte Modell immer das vollständige Modell, sodass die Frage dort nicht auftaucht.)

anova linear-model

— caracal
quelle

Ich kann nur mit Ihrer Frage verwechselt werden, aber die Wirkung des für die Prüfung mit Typ - 1 - SS, der Nenner ist diejenige , die Sie in Ihrem zweiten Ausdruck haben. Der F-Wert in der Ausgabe von running wird über Ihren zweiten Ausdruck berechnet. Das heißt, wenn Sie lief und und verstopften die entsprechenden Werte in der zweiten Ausdruck, erhalten Sie . Lassen Sie mich wissen, wenn ich Ihre Besorgnis völlig verpasse.

A

$A$ anova(lm(DV ~ IV1))anova(lm(DV ~ 1))anova(lm(DV ~ IV1))

F = 0.9342

$F=0.9342$

@MikeWierzbicki Sie haben Recht, wenn das vollständige Modell nur IV1(1. Beispiel) enthält, dann sind die beiden Ausdrücke für den Nenner identisch. Wenn jedoch das vollständige Modell zusätzliche Effekte enthält, der Nenner für die Prüfung ändert , obwohl der Modellvergleich ( vs. für Typ - 1 - SS) nicht. In den 3 Beispielen ändert sich das mittlere Quadrat für nicht (in allen Fällen der gleiche Modellvergleich), der mittlere quadratische Fehler jedoch. Mich interessiert, was den sich ändernden Fehlerbegriff rechtfertigt, wenn der tatsächliche Vergleich gleich bleibt.

A

$A$ ~ 1~ IV1 + 1

A

$A$

— Karakal

Hey @caracal, schön zu sehen, wie plötzlich eine so alte Antwort angenommen wird! :-) Prost.

— Amöbe sagt Reinstate Monica

4

Dies ist eine sehr alte Frage, und ich glaube, dass die Antwort von @ gung sehr gut ist (+1). Aber da es für @caracal nicht ganz überzeugend war und ich auch nicht alle seine Feinheiten vollständig befolge, möchte ich eine einfache Abbildung liefern, die zeigt, wie ich das Problem verstehe.

Stellen Sie sich eine Zwei-Wege-ANOVA vor (Faktor A hat drei Stufen, Faktor B hat zwei Stufen), wobei beide Faktoren offensichtlich von großer Bedeutung sind:

Faktorielle ANOVA-Quadratsummen

SS für Faktor A ist riesig. SS für Faktor B ist viel kleiner, aber aus der oberen Abbildung geht hervor, dass Faktor B dennoch ebenfalls von großer Bedeutung ist.

Der Fehler SS für das Modell, das beide Faktoren enthält, wird durch einen von sechs Gaußschen Werten dargestellt. Wenn der Fehler SS für den Faktor B mit diesem Fehler SS verglichen wird, wird der Test zu dem Schluss kommen, dass der Faktor B signifikant ist.

Der Fehler SS für das Modell, das nur den Faktor B enthält, ist jedoch massiv! Der Vergleich von SS für Faktor B mit diesem massiven Fehler SS führt definitiv dazu, dass B nicht signifikant erscheint. Welches ist eindeutig nicht der Fall.

Aus diesem Grund ist es sinnvoll, Fehler-SS aus dem Gesamtmodell zu verwenden.

— Amöbe sagt Reinstate Monica
quelle

2

Update: Um einige der Punkte zu verdeutlichen, die ich hier erwähne, habe ich einige Links zu Stellen hinzugefügt, an denen ich die relevanten Ideen ausführlicher diskutiere.

Der F-Test prüft, ob mit einem Faktor mehr Variabilität (speziell mittlere Quadrate) verbunden ist, als zufällig zu erwarten wäre. Wie viel Abweichung wir zufällig erwarten könnten, wird aus der Summe der Fehlerquadrate geschätzt, dh wie viel Abweichung ist auf keinen bekannten Faktor zurückzuführen (damit verbunden). Dies sind Ihre Reste, was übrig bleibt, nachdem Sie alles berücksichtigt haben, was Sie wissen. In Ihrem Beispiel enthält nicht nur den Restfehler, sondern auch die Variabilität aufgrund bekannter Faktoren. Während theoretisch angenommen wird, dass die zu einem gewissen Grad zufällig , wird diese Menge nicht theoretisch angenommen, um durch die anderen bekannten Faktoren ¹ angetrieben zu werden . Daher wäre es unangemessen, $RSS_{A}$ $SS_{A}$ $MS_{A}$ als Nenner in Ihrem F-Test. Darüber hinaus bietet die Verwendung von mehr Leistung, verringert die Wahrscheinlichkeit eines Fehlers vom Typ II und sollte den Fehler vom Typ I nicht aufblähen. $MS_{A+B+A*B}$

Es gibt einige weitere Probleme in Ihrer Frage. Sie erwähnen, dass nicht immer das niedrigste ist, und in Ihrem Beispiel . Dies liegt daran, dass die Interaktion eigentlich nicht mit einer eigenen Variabilität verbunden ist. Diese scheint auf nichts anderes als den Zufall zurückzuführen zu sein. Es gibt eine präzise, aber etwas komplizierte Formel, die angibt, wie sich die Leistung ändert, wenn verschiedene Faktoren in das Modell einbezogen oder daraus ausgeschlossen werden. Ich habe es nicht zur Hand, aber das Wesentliche ist einfach: Wenn Sie einen weiteren Faktor hinzufügen, verringert sich der RSS- (wodurch Sie mehr Leistung erhalten), aber der $RSS_{full}$ $MS_{A+B+A*B} > MS_{A+B}$ $SS_{A*B} = 14.19$ $df_{R}$ geht auch runter (weniger Leistung). Das Gleichgewicht dieses Kompromisses wird im Wesentlichen dadurch bestimmt, ob die mit diesem Faktor assoziierten SS real sind oder nur zufällig, was in der Praxis grob dadurch angezeigt wird, ob der Faktor signifikant ist ² . Das Eliminieren von Faktoren aus dem Modell, die nicht von Bedeutung sind, um den richtigen Fehlerbegriff zu erhalten, entspricht logischerweise einem automatischen Modellsuchvorgang, auch wenn Ihre Software dies nicht automatisch für Sie erledigt. Sie sollten wissen, dass es dabei viele Probleme gibt. Diese Probleme und alternative Verfahren werden an anderer Stelle in CV ³ erörtert .

Ein letztes Thema betrifft die verschiedenen Arten von SS. Erstens führt die Verwendung verschiedener Arten von SS nicht dazu, dass Sie eine logische Begründung für Ihre Analyse benötigen. Darüber hinaus haben die SS-Typen I - III jedoch etwas mit einem anderen Problem zu tun. In Ihrem Beispiel sind Ihre Faktoren orthogonal, dh Sie haben ein Experiment durchgeführt, bei dem Sie jeder Kombination von Faktorstufen das gleiche n zugewiesen haben. Wenn Sie jedoch eine Beobachtungsstudie durchführen oder Probleme mit dem Schulabbruch haben, korrelieren Ihre Faktoren. Dies hat zur Folge, dass es keine eindeutige Möglichkeit gibt, die SS zu partitionieren, und dass Ihre Analysen keine eindeutige Antwort liefern. Mit anderen Worten, die verschiedenen Arten von SS mit unterschiedlichen möglich zu tun Zählern für Ihren F - Test , wenn Ihre Faktoren korrelieren sind ⁴ .

_{1. Beachten Sie, dass bei Modellen mit mehreren Ebenen theoretisiert werden kann, dass ein Faktor die Variabilität von anderen Faktoren einschließt, je nachdem, wie das Modell spezifiziert ist. Ich spreche hier von gewöhnlicher ANOVA, worüber Sie anscheinend nachfragen.

2. Siehe: Wie kann das Hinzufügen einer 2. IV die 1. IV signifikant machen?

3. Siehe: Algorithmen zur automatischen Modellauswahl .

4. Siehe: Wie werden Typ I (sequentielle) ANOVA und MANOVA interpretiert?}

— gung - Wiedereinsetzung von Monica
quelle

1

Danke für deine Antwort! Ich bin allerdings nicht zu 100% überzeugt: Sie sagen, dass "RSS (A) mehr als nur den Restfehler enthält, sondern auch Variabilität aufgrund bekannter Faktoren." Dies hängt jedoch davon ab, welches Modell das richtige ist. Vielleicht haben und keine Wirkung - wir wissen das nicht, es ist nur eine Hypothese, die wir testen. Und zusätzlich zu den angenommenen Einflüssen könnte es unbekannte geben. Wie rechtfertigen wir also a priori, welches Modell der Wahrheit näher kommt? In der Regression ist die Situation äquivalent. Haben Sie einige Literaturquellen, die ich konsultieren könnte?

B

$B$

A : B

$A:B$

— Karakal

1

+1 und ich haben gerade eine Antwort gepostet, die versucht, Ihren ersten großen Absatz zu veranschaulichen.

— Amöbe sagt Reinstate Monica

0

Die Begründung ist, dass Faktor A einen größeren Prozentsatz der ungeklärten Variation im A + B-Modell im Vergleich zum A-Modell erklärt, da Faktor B einen signifikanten Teil erklärt (und ihn daher aus der Analyse "entfernt").

— CDX
quelle