ANOVA gegen multiple lineare Regression? Warum wird ANOVA in experimentellen Studien so häufig verwendet?

24

ANOVA gegen multiple lineare Regression?

Ich verstehe, dass diese beiden Methoden anscheinend dasselbe statistische Modell verwenden. Unter welchen Umständen sollte ich jedoch welche Methode anwenden?

Was sind die Vor- und Nachteile dieser Methoden im Vergleich?

Warum wird ANOVA in experimentellen Studien so häufig verwendet und ich finde kaum eine Regressionsstudie?

anova multiple-regression least-squares

— florian
quelle

5

Da beide dasselbe Modell verwenden, spielt es keine Rolle, welches Sie verwenden.

— Peter Flom - Reinstate Monica

3

Ich nenne es Regression, wenn ich Steigungen, dh kontinuierliche Prädiktorvariablen, vergleiche, und ANOVA, wenn ich Mittelwerte, dh kategoriale Prädiktorvariablen, vergleiche. Der Grund, warum Sie ANOVA häufiger in experimentellen Studien finden, ist, dass es sich meistens um Vergleiche von Mitteln oder Behandlungsmengen handelt, z. B. um den Vergleich verschiedener Düngemittel hinsichtlich des Pflanzenwachstums. Wie @PeterFlom bereits sagte, verwenden beide dasselbe Modell und es spielt keine Rolle, welches Sie verwenden - das einzige, was anders aussieht, ist die Ausgabe, die sie Ihnen geben - und je nach Ihrer Frage möchten Sie entweder die Ausgabe "Regression" oder die "ANOVA" -Ausgang.

— Stefan

2

Hmm, aber Sie könnten auch kategoriale Prädiktoren über Dummy-Codierung in eine Regression einbeziehen?

— Florian

Ja natürlich!

— Stefan

4

Ihre Frage ist sehr zutreffend und wurde aus verschiedenen Perspektiven des Lebenslaufs bereits mehrmals beantwortet. Die doppelte Natur dieser Tests ist rätselhaft. Es ist leicht zu sagen, ANOVA = lineare Regression, und ich denke, dass alle bisher gemachten Kommentare hilfreich und zutreffend sind, aber die Realität ist etwas nuancierter und schwer zu verstehen, insbesondere wenn Sie ANCOVA unter dem Dach der Analyse von einbeziehen Varianz. Überprüfen Sie andere Einträge wie diesen . Ich habe +1 für Ihre Frage, obwohl es sich streng genommen um ein Duplikat handelt. Können Sie eine Ex geben?

— Antoni Parellada

22

Es wäre interessant zu verstehen, dass die Abweichung in der Art der Variablen und insbesondere in der Art der erklärenden Variablen besteht . In der typischen ANOVA haben wir eine kategoriale Variable mit verschiedenen Gruppen und wir versuchen festzustellen, ob sich die Messung einer kontinuierlichen Variablen zwischen den Gruppen unterscheidet. Andererseits wird OLS in erster Linie als ein Versuch angesehen, die Beziehung zwischen einem kontinuierlichen Regressanten oder einer Antwortvariablen und einem oder mehreren Regressoren oder erklärenden Variablen zu bewerten . In diesem Sinne kann die Regression als eine andere Technik angesehen werden, die dazu geeignet ist, Werte basierend auf einer Regressionslinie vorherzusagen.

Dieser Unterschied steht jedoch nicht in Zusammenhang mit der Ausweitung der ANOVA auf den Rest der Varianz-Alphabetsuppe (ANCOVA, MANOVA, MANCOVA). oder die Einbeziehung von Dummy-codierten Variablen in die OLS-Regression. Ich bin mir nicht sicher, welche historischen Wahrzeichen es gibt, aber es ist, als hätten beide Techniken parallele Anpassungen erfahren, um immer komplexer werdende Modelle in Angriff zu nehmen.

Beispielsweise können wir feststellen, dass die Unterschiede zwischen ANCOVA und OLS mit Dummy-Variablen (oder kategorialen Variablen) (in beiden Fällen mit Wechselwirkungen) höchstens kosmetischer Natur sind. Bitte entschuldigen Sie meine Abkehr von den Beschränkungen im Titel Ihrer Frage in Bezug auf die multiple lineare Regression.

In beiden Fällen ist das Modell im Wesentlichen identisch mit dem Punkt, an dem in R die lmFunktion zur Ausführung von ANCOVA verwendet wird . Sie kann jedoch in Bezug auf die Einbeziehung eines Abschnitts, der der ersten Ebene (oder Gruppe) der Faktorvariablen (oder der kategorialen Variablen) im Regressionsmodell entspricht, als unterschiedlich dargestellt werden.

In einem ausgeglichenen Modell (gleich große Gruppen, $i$ ) und nur eine Kovariate (um die Matrixdarstellung zu vereinfachen), kann die Modellmatrix in ANCOVA als eine Variation von: $n_{1,2,\cdots\, i}$

X = [\begin{matrix} 1_{n_{1}} & 0 & 0 & x_{n_{1}} & 0 & 0 \\ 0 & 1_{n_{2}} & 0 & 0 & x_{n_{2}} & 0 \\ 0 & 0 & 1_{n_{3}} & 0 & 0 & x_{n_{3}} \end{matrix}]

$X=\begin{bmatrix} 1_{n_1} & 0 & 0 & x_{n_1} & 0 & 0\\ 0 & 1_{n_2} & 0 & 0 & x_{n_2} & 0\\ 0 & 0 & 1_{n_3} & 0 & 0 & x_{n_3} \end{bmatrix}$

für Gruppen der Faktorvariablen, ausgedrückt als Blockmatrizen. $3$

Dies entspricht einem linearen Modell:

mit , das der unterschiedlichen Gruppe entspricht, bedeutet in einem ANOVA-Modell, während die unterschiedlichen die Steigungen der Kovariate für jede der Gruppen sind.

y = α_{i} + β_{1} x_{n_{1}} + β_{2} x_{n_{2}} + β_{3} x_{n_{3}} + ϵ_{i}

$y = \alpha_i + \beta_1\, x_{n_1}+ \beta_2\,x_{n_2} \,+ \beta_3\,x_{n_3}\,+ \epsilon_i$

α_{i}

$\alpha_i$

β

$\beta$

Die Darstellung desselben Modells im Regressionsfeld und insbesondere in R berücksichtigt einen Gesamtabschnitt, der einer der Gruppen entspricht, und die Modellmatrix könnte wie folgt dargestellt werden:

X = [\begin{matrix} ⋮ & 0 & 0 & ⋮ & 0 & 0 & 0 \\ J_{3 n, 1} & 1_{n_{2}} & 0 & x & 0 & x_{n_{2}} & 0 \\ ⋮ & 0 & 1_{n_{3}} & ⋮ & 0 & 0 & x_{n_{3}} \end{matrix}]

$X=\begin{bmatrix} \color{red}\vdots & 0 & 0 &\color{red}\vdots & 0 &0 & 0\\ \color{red}{J_{3n,1}} & 1_{n_2} & 0 & \color{red}{x} & 0 & x_{n_2} & 0\\ \color{red}\vdots& 0 & 1_{n_3} & \color{red}\vdots & 0 & 0 & x_{n_3} \end{bmatrix}$

der OLS-Gleichung:

.

y = β_{0} + μ_{i} + β_{1} x_{n_{1}} + β_{2} x_{n_{2}} + β_{3} x_{n_{3}} + ϵ_{i}

$y =\color{red}{\beta_0} + \mu_i +\beta_1\, x_{n_1}+ \beta_2\,x_{n_2} \,+ \beta_3\,x_{n_3}\,+ \epsilon_i$

In diesem Modell wird der Gesamtabschnitt auf jeder Gruppenebene um modifiziert , und die Gruppen haben auch unterschiedliche Steigungen. $\beta_0$ $\mu_i$

Wie Sie aus den Modellmatrizen ersehen können, widerspricht die Darstellung der tatsächlichen Identität zwischen Regression und Varianzanalyse.

Ich mag Art verifiziert dies mit einigen Zeilen Code und meinem Lieblings - Datensatz mtcarsin R . Ich verwende lmfür ANCOVA gemäß Ben Bolkers Artikel, der hier verfügbar ist .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

In Bezug auf den Teil der Frage, welche Methode zu verwenden ist (Regression mit R!), Finden Sie diesen Online-Kommentar, auf den ich beim Schreiben dieses Beitrags gestoßen bin, vielleicht amüsant .

— Antoni Parellada
quelle

1

Vielen Dank für diesen äußerst hilfreichen Kommentar ... Zitat aus dem verknüpften Kommentar: "Verwenden Sie die Regression, wenn Sie nicht sicher sind, ob die unabhängigen kategorialen Variablen überhaupt Auswirkungen haben. Verwenden Sie ANOVA, wenn Sie feststellen möchten, ob bestimmte Kategorien unterschiedliche Auswirkungen haben . " Wie kommt es dann, dass viele experimentelle Studien ANOVA verwenden? Nach meinem Verständnis wäre eine Regression die richtige Wahl. Sind die Forscher zu überzeugt, dass die Auswirkungen vorhanden sind, und suchen sie nur nach Möglichkeiten, sie statistisch zu "beweisen"?

— Florian

Könnten Sie ein praktisches Beispiel geben, wo man aov over regression verwenden und erklären sollte, warum? Vielen Dank für Ihre Zeit. Ich bin ebenfalls ausgebildeter Psychologe und kann die Vorteile von Anova nicht erkennen, außer dass dies wahrscheinlich einfacher veröffentlicht wird.

— Florian

Etwas Glück? Ich würde mich sehr über eine konkretere Heuristik für beide Verfahrensarten freuen. Teilen Sie diese bitte mit, wenn Sie eine Antwort finden.

— Antoni Parellada

Leider gibt es bisher keine neuen Entdeckungen auf meinem Weg in die Statistik ... ich werde Sie auf dem Laufenden halten, mehr Input wird geschätzt.

— Florian

Ich habe Schwierigkeiten, die OLS-Modellmatrix und die entsprechende Gleichung hier zu verstehen. Ich verstehe nicht, woher die Nullspalte kommt (5. Spalte der Matrix). Außerdem denke ich, dass die Gleichung den Spalten entsprechen sollte (dh mu_i sollte nur für zwei Gruppen sein und die x-Variable sollte ohne Interaktion mit einem Gruppen-Dummy enthalten sein). Zusätzliche Klarstellung wird sehr geschätzt!

— Nick

4

ANOVA- und OLS-Regression sind in Fällen, in denen Ihre Prädiktoren kategorisch sind (in Bezug auf die Schlussfolgerungen, die Sie aus der Teststatistik ziehen), mathematisch identisch. Anders ausgedrückt handelt es sich bei der ANOVA um einen speziellen Regressionsfall. Es gibt nichts, was eine ANOVA Ihnen sagen könnte, dass sich Regression nicht von selbst ableiten lässt. Das Gegenteil ist jedoch nicht der Fall. ANOVA kann nicht für die Analyse mit kontinuierlichen Variablen verwendet werden. Daher könnte ANOVA als die eingeschränktere Technik eingestuft werden. Die Regression ist jedoch für weniger erfahrene Analysten nicht immer so praktisch. Beispielsweise generieren die meisten ANOVA-Skripte automatisch Interaktionsterme. Wie bei der Regression müssen Sie diese Termini häufig mithilfe der Software manuell berechnen. Die weit verbreitete Verwendung von ANOVA ist teilweise ein Relikt statistischer Analysen vor dem Einsatz leistungsfähigerer statistischer Software. und meiner Meinung nach eine einfachere Technik, um unerfahrenen Schülern beizubringen, deren Ziel ein relativ oberflächliches Verständnis ist, das es ihnen ermöglicht, Daten mit einem statistischen Basispaket zu analysieren. Probieren Sie es einmal aus ... Untersuchen Sie die t-Statistik, die eine grundlegende Regression ausgibt, quadrieren Sie sie und vergleichen Sie sie dann mit dem F-Verhältnis aus der ANOVA für dieselben Daten. Identisch!

— Michael Melville
quelle

Das ist nicht wahr.

— Michael R. Chernick

4

@MichaelChernick Könnten Sie näher erläutern, welche der vielen Aussagen in dieser Antwort Ihrer Meinung nach falsch sind? Obwohl es einige extreme Positionen einnimmt, ist es schwierig, irgendwelche zu finden, die falsch sind.

— Whuber

Ich habe Einwände gegen die Aussage erhoben, dass die ANOVA- und die OLS-Regression mathematisch identisch sind. Ich erkenne, dass ANOVA als Regression betrachtet werden kann als eine Form des allgemeinen linearen Modells, das wie eine Regression formuliert werden kann.

— Michael R. Chernick

Wie sind sie im OLS-Fall nicht identisch mit der Ausgabe? Das zugrunde liegende Modell ist das gleiche, die Residuen sind die gleichen, die von ihnen erzeugten p-Werte sind die gleichen. Es ist die Ausgabe, die sich unterscheidet.

— Dbwilson

2

Der Hauptnutzen von ANOVA gegenüber der Regression liegt meiner Meinung nach in der Ausgabe. Wenn Sie an der statistischen Signifikanz der kategorialen Variablen (Faktor) als Block interessiert sind, bietet Ihnen ANOVA diesen Test an. Bei der Regression wird die kategoriale Variable in Abhängigkeit von der Anzahl der Kategorien durch zwei oder mehr Dummy - Variablen dargestellt. Daher stehen Ihnen zwei oder mehr statistische Tests zur Verfügung, bei denen jeweils der Mittelwert für die jeweilige Kategorie mit dem Mittelwert der Nullkategorie (oder der Nullkategorie) verglichen wird Gesamtmittelwert, abhängig von der Dummy-Codierungsmethode). Beides ist möglicherweise nicht von Interesse. Daher müssen Sie eine Analyse nach der Schätzung (im Wesentlichen ANOVA) durchführen, um den Gesamttest des gewünschten Faktors zu erhalten.

— dbwilson
quelle

Eigentlich stimmt das nicht. Wenn Sie einen Likelihood-Ratio-Test durchführen, testen Sie den gesamten kategorialen Faktor als Block in einem Regressionsmodell.

— Dan Chaltiel

Ihr Kommentar widerspricht nicht dem, was ich gesagt habe. Der von Ihnen erwähnte Likelihood-Ratio-Test ist eine Analyse nach der Schätzung des Faktors, bei der das Modell mit dem Faktor mit dem Modell ohne verglichen wird.

— dbwilson

Wenn Sie eine ANOVA durchführen, erhalten Sie einen p-Wert für "die kategoriale Variable (Faktor) als Block", ebenso wie die Regression mit LRT. Die Regression bietet Ihnen möglicherweise mehrere Beta-Tests, führt jedoch nicht mehr Tests als die ANOVA durch. Daher scheint mir Ihre Aussage, dass Sie zwei oder mehr statistische Tests haben, falsch zu sein. Warum wäre LRT mehr "Post-Estimation" als ANOVA?

— Dan Chaltiel

1

Der Hauptvorteil der linearen Regression besteht darin, dass sie gegenüber der Verletzung der Homogenität der Varianz robust ist, wenn die Stichprobengrößen über Gruppen hinweg ungleich sind. Zum anderen können mehrere Kovariaten einbezogen werden (dies kann jedoch auch über ANCOVA problemlos durchgeführt werden, wenn Sie nur eine Kovariate einbeziehen möchten). Die Regression verbreitete sich in den siebziger Jahren mit dem Aufkommen von Fortschritten bei der Rechenleistung. Eine Regression bietet sich auch an, wenn Sie die Unterschiede zwischen bestimmten Ebenen einer kategorialen Variablen besonders untersuchen möchten, wenn mehr als zwei Ebenen vorhanden sind (sofern Sie die Dummy-Variable in der Regression so eingerichtet haben, dass eine dieser beiden Ebenen vorhanden ist repräsentiert die Referenzgruppe).

— David B
quelle

1

Wie in der anderen Antwort darauf hingewiesen, eine ANOVA ist eine multiple Regression.

— gung - Wiedereinsetzung von Monica

Vielen Dank. Was sind die Vorteile von Anova? Warum sollten Sie eine Anova / Ancova anstelle eines Regressionsmodells verwenden?

— Florian

Ich habe hier eine Frage. Warum haben Sie bei der Erläuterung des Nutzens von ANCOVA „nur eine Kovariate“ angegeben? Liegt es daran, dass Sie nur eine Kovariate in ANCOVA aufnehmen können?

— Kevin Kang