Die ANOVA habe ich 1978 als Masterstudent in Oxford kennengelernt. Moderne Ansätze, bei denen kontinuierliche und kategoriale Variablen im multiplen Regressionsmodell unterrichtet werden, erschweren es jüngeren Statistikern zu verstehen, was vor sich geht. Es kann also hilfreich sein, zu einfacheren Zeiten zurückzukehren.
In ihrer ursprünglichen Form ist die ANOVA eine Rechenübung, bei der Sie die Gesamtsumme der Quadrate in Teile zerlegen, die mit Behandlungen, Blöcken, Wechselwirkungen usw. in Verbindung stehen. In einer ausgeglichenen Einstellung addieren sich Quadratsummen mit einer intuitiven Bedeutung (wie SSB und SST) zur angepassten Gesamtsumme der Quadrate. All dies funktioniert dank Cochrans Theorem . Mit Cochran können Sie die erwarteten Werte dieser Terme unter den üblichen Nullhypothesen berechnen, und die F-Statistiken fließen von dort ab.
Als Bonus ist es sinnvoll, wenn Sie erst einmal über Cochran und Quadratsummen nachdenken, Ihre Behandlungssummen mit orthogonalen Kontrasten weiter aufzuschneiden und zu würfeln. Jeder Eintrag in der ANOVA-Tabelle sollte eine Interpretation des Interesses für den Statistiker enthalten und eine überprüfbare Hypothese liefern.
Ich habe kürzlich eine Antwort geschrieben, in der der Unterschied zwischen MOM- und ML-Methoden festgestellt wurde. Die Frage drehte sich um die Schätzung von Zufallseffektmodellen. Zu diesem Zeitpunkt teilt der traditionelle ANOVA-Ansatz das Unternehmen vollständig mit der Maximalwahrscheinlichkeitsschätzung, und die Schätzungen der Auswirkungen sind nicht mehr dieselben. Wenn das Design nicht ausgeglichen ist, erhalten Sie auch nicht die gleichen F-Statistiken.
σ2pσ2σ2+nσ2pnσ2b^. Die ANOVA liefert eine Methode zum Abschätzen von Momenten für die zufällige Effektvarianz. Wir neigen nun dazu, solche Probleme mit Mischeffektmodellen zu lösen, und die Varianzkomponenten werden durch Maximum-Likelihood-Schätzung oder REML erhalten.
Die ANOVA als solche ist keine Methode der Momentaufnahme. Dabei wird die Summe der Quadrate (oder allgemeiner eine quadratische Form der Antwort) in Komponenten aufgeteilt, die aussagekräftige Hypothesen liefern. Dies hängt stark von der Normalität ab, da die Quadratsummen Chi-Quadrat-Verteilungen haben sollen, damit die F-Tests funktionieren.
Der Maximalwahrscheinlichkeitsrahmen ist allgemeiner und gilt für Situationen wie verallgemeinerte lineare Modelle, in denen Quadratsummen nicht zutreffen. Einige Software (wie R) führen zu Verwirrung, indem sie Anova-Methoden zu Likelihood-Ratio-Tests mit asymptotischen Chi-Quadrat-Verteilungen spezifizieren. Man kann die Verwendung des Begriffs "Anova" rechtfertigen, aber genau genommen ist die Theorie dahinter anders.