Es wäre interessant zu verstehen, dass die Abweichung in der Art der Variablen und insbesondere in der Art der erklärenden Variablen besteht . In der typischen ANOVA haben wir eine kategoriale Variable mit verschiedenen Gruppen und wir versuchen festzustellen, ob sich die Messung einer kontinuierlichen Variablen zwischen den Gruppen unterscheidet. Andererseits wird OLS in erster Linie als ein Versuch angesehen, die Beziehung zwischen einem kontinuierlichen Regressanten oder einer Antwortvariablen und einem oder mehreren Regressoren oder erklärenden Variablen zu bewerten . In diesem Sinne kann die Regression als eine andere Technik angesehen werden, die dazu geeignet ist, Werte basierend auf einer Regressionslinie vorherzusagen.
Dieser Unterschied steht jedoch nicht in Zusammenhang mit der Ausweitung der ANOVA auf den Rest der Varianz-Alphabetsuppe (ANCOVA, MANOVA, MANCOVA). oder die Einbeziehung von Dummy-codierten Variablen in die OLS-Regression. Ich bin mir nicht sicher, welche historischen Wahrzeichen es gibt, aber es ist, als hätten beide Techniken parallele Anpassungen erfahren, um immer komplexer werdende Modelle in Angriff zu nehmen.
Beispielsweise können wir feststellen, dass die Unterschiede zwischen ANCOVA und OLS mit Dummy-Variablen (oder kategorialen Variablen) (in beiden Fällen mit Wechselwirkungen) höchstens kosmetischer Natur sind. Bitte entschuldigen Sie meine Abkehr von den Beschränkungen im Titel Ihrer Frage in Bezug auf die multiple lineare Regression.
In beiden Fällen ist das Modell im Wesentlichen identisch mit dem Punkt, an dem in R die lm
Funktion zur Ausführung von ANCOVA verwendet wird . Sie kann jedoch in Bezug auf die Einbeziehung eines Abschnitts, der der ersten Ebene (oder Gruppe) der Faktorvariablen (oder der kategorialen Variablen) im Regressionsmodell entspricht, als unterschiedlich dargestellt werden.
In einem ausgeglichenen Modell (gleich große Gruppen, n 1 , 2 , ⋯i ) und nur eine Kovariate (um die Matrixdarstellung zu vereinfachen), kann die Modellmatrix in ANCOVA als eine Variation von:n1,2,⋯i
X=⎡⎣⎢1n10001n20001n3xn1000xn2000xn3⎤⎦⎥
für Gruppen der Faktorvariablen, ausgedrückt als Blockmatrizen.3
Dies entspricht einem linearen Modell:
mit α i , das der unterschiedlichen Gruppe entspricht, bedeutet in einem ANOVA-Modell, während die unterschiedlichen β die Steigungen der Kovariate für jede der Gruppen sind.
y=αi+β1xn1+β2xn2+β3xn3+ϵi
αiβ
Die Darstellung desselben Modells im Regressionsfeld und insbesondere in R berücksichtigt einen Gesamtabschnitt, der einer der Gruppen entspricht, und die Modellmatrix könnte wie folgt dargestellt werden:
X=⎡⎣⎢⎢⎢⋮J3n,1⋮01n20001n3⋮x⋮0000xn2000xn3⎤⎦⎥⎥⎥
der OLS-Gleichung:
.
y=β0+μi+β1xn1+β2xn2+β3xn3+ϵi
In diesem Modell wird der Gesamtabschnitt auf jeder Gruppenebene um μ i modifiziert , und die Gruppen haben auch unterschiedliche Steigungen.β0μi
Wie Sie aus den Modellmatrizen ersehen können, widerspricht die Darstellung der tatsächlichen Identität zwischen Regression und Varianzanalyse.
Ich mag Art verifiziert dies mit einigen Zeilen Code und meinem Lieblings - Datensatz mtcars
in R . Ich verwende lm
für ANCOVA gemäß Ben Bolkers Artikel, der hier verfügbar ist .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
In Bezug auf den Teil der Frage, welche Methode zu verwenden ist (Regression mit R!), Finden Sie diesen Online-Kommentar, auf den ich beim Schreiben dieses Beitrags gestoßen bin, vielleicht amüsant .