Diese Frage stammt offensichtlich aus einer Studie mit einem unausgeglichenen Zweiwege-Design, die in R mit der aov()
Funktion analysiert wurde . Auf dieser Seite finden Sie ein aktuelles und detailliertes Beispiel für dieses Problem.
Die allgemeine Antwort auf diese Frage lautet für so viele: "Es kommt darauf an." Hier kommt es darauf an, ob das Design ausgewogen ist und wenn nicht, welches Aroma von ANOVA gewählt wird.
Erstens hängt es davon ab, ob das Design ausgewogen ist. In der besten aller möglichen Welten, mit der gleichen Anzahl von Fällen in allen Zellen eines Fakultätsentwurfs, würde es keinen Unterschied aufgrund der Reihenfolge der Eingabe der Faktoren in das Modell geben, unabhängig davon, wie die ANOVA durchgeführt wird. * Die vorliegenden Fälle , offensichtlich aus einer retrospektiven klinischen Kohorte, scheinen aus einer realen Welt zu stammen, in der ein solches Gleichgewicht nicht gefunden wurde. Die Reihenfolge könnte also eine Rolle spielen.
Zweitens hängt es davon ab, wie die ANOVA durchgeführt wird, was ein ziemlich umstrittenes Thema ist. Die ANOVA-Typen für unsymmetrische Designs unterscheiden sich in der Reihenfolge der Bewertung der Haupteffekte und Wechselwirkungen. Die Bewertung von Interaktionen ist für die Zwei-Wege-ANOVA und die ANOVA höherer Ordnung von grundlegender Bedeutung. Daher gibt es Streit darüber, wie am besten vorgegangen werden kann. Auf dieser Seite mit der Kreuzvalidierung finden Sie eine Erläuterung und Diskussion. Anova()
Eine andere Ansicht finden Sie in den Details und der Warnung für die Funktion (mit einem Großbuchstaben "A") im Handbuch für das car
Paket .
Die Reihenfolge der Faktoren spielt bei unsymmetrischen Konstruktionen unter der Vorgabe aov()
in R eine Rolle , bei der sogenannte Typ-I-Tests verwendet werden. Dies sind sequentielle Varianzzuordnungen zu Faktoren in der Reihenfolge des Eintritts in das Modell, wie in der vorliegenden Frage vorgesehen. Die Reihenfolge spielt bei den Tests des Typs II oder III, die von der Anova()
Funktion in der car
Verpackung in R bereitgestellt werden, keine Rolle . Diese Alternativen haben jedoch ihre eigenen potenziellen Nachteile, die in den obigen Links angegeben sind.
Betrachten Sie abschließend die Beziehung zur multiplen linearen Regression wie lm()
in R, die im Wesentlichen der gleiche Modelltyp ist, wenn Sie Interaktionsterme einbeziehen. Die Reihenfolge der Eingabe von Variablen in lm()
spielt keine Rolle in Bezug auf Regressionskoeffizienten und p- Werte, die von gemeldet werden summary(lm())
, wobei ein k-Level-Kategoriefaktor als (k-1) binäre Dummy-Variablen codiert wird und ein Regressionskoeffizient für jeden Dummy gemeldet wird .
Es ist jedoch möglich, die lm()
Ausgabe mit anova()
(Kleinbuchstaben "a" aus dem R- stats
Paket) Anova()
zu umbrechen oder den Einfluss jedes Faktors auf alle Ebenen zusammenzufassen, wie dies in der klassischen ANOVA zu erwarten ist. Dann wird die Reihenfolge der Faktoren egal mit anova()
wie aov()
und wird keine Rolle , mit Anova()
. Ebenso würden die Streitigkeiten darüber, welche Art von ANOVA verwendet werden soll, zurückkehren. Es ist daher nicht sicher, bei allen nachgelagerten Modellanwendungen eine geordnete Unabhängigkeit der Faktorerfassung anzunehmen lm()
.
* Es ist ausreichend, in allen Zellen die gleiche Anzahl von Beobachtungen durchzuführen, aber meines Wissens ist es nicht erforderlich, dass die Reihenfolge der Faktoren keine Rolle spielt. Weniger anspruchsvolle Arten der Bilanzierung können eine Unabhängigkeit von der Reihenfolge ermöglichen.