Wie sind Regression, T-Test und ANOVA alle Versionen des allgemeinen linearen Modells?


Antworten:


47

Bedenken Sie, dass sie alle als Regressionsgleichung geschrieben werden können (möglicherweise mit geringfügig abweichenden Interpretationen als ihre traditionellen Formen).

Regression:

Y=β0+β1X(continuous)+εwhere εN(0,σ2)

t-Test:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

ANOVA:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

Die prototypische Regression wird mit als stetige Variable konzipiert. Die einzige Annahme, die tatsächlich über X gemacht wird, ist, dass es sich um einen Vektor bekannter Konstanten handelt. Es kann sich um eine kontinuierliche Variable handeln, es kann sich aber auch um einen Dummy-Code handeln (dh einen Vektor aus 0 und 1 , der angibt, ob eine Beobachtung Mitglied einer angegebenen Gruppe ist - z. B. einer Behandlungsgruppe). Somit könnte X in der zweiten Gleichung ein solcher Dummy-Code sein, und der p-Wert wäre der gleiche wie der eines t-Tests in seiner traditionelleren Form. XX01X

Die Bedeutung der Betas würde sich hier jedoch unterscheiden. In diesem Fall wäre der Mittelwert der Kontrollgruppe (für die die Einträge in der Dummy-Variablen 0 sind ), und β 1 wäre die Differenz zwischen dem Mittelwert der Behandlungsgruppe und dem Mittelwert der Kontrolle Gruppe. β00β1

Denken Sie jetzt daran, dass es durchaus sinnvoll ist, eine ANOVA mit nur zwei Gruppen durchzuführen (obwohl ein T-Test häufiger vorkommt), und dass alle drei miteinander verbunden sind. Wenn Sie es vorziehen zu sehen, wie es funktionieren würde, wenn Sie eine ANOVA mit 3 Gruppen hätten; es wäre: Beachtendasswenn Sie haben g Gruppen, haben Sie g - 1 DummyCodesum sie darzustellen. Die Referenzgruppe (normalerweise die Kontrollgruppe) wird durch 0 füralleDummy-Codes angegeben (in diesem Fall sowohl Dummy-Code 1 als auch Dummy-Code 2). In diesem Fall möchten Sie die p-Werte der t-Tests für diese Beta-Tests, die mit einer statistischen Standardausgabe geliefert werden, nicht interpretieren. Sie geben nur an, ob sich die angegebene Gruppe von der Kontrollgruppe unterscheidet,wenn sie isoliert bewertet wird

Y=β0+β1X(dummy code 1)+β2X(dummy code 2)+εwhere εN(0,σ2)
gg10. Das heißt, diese Tests sind nicht unabhängig. Stattdessen möchten Sie bewerten, ob die Gruppenmittelwerte variieren, indem Sie eine ANOVA-Tabelle erstellen und einen F-Test durchführen. Die Werte werden wie bei der oben beschriebenen t-Test-Version interpretiert: β 0 ist der Mittelwert der Kontroll- / Referenzgruppe, β 1 gibt den Unterschied zwischen dem Mittelwert der Gruppe 1 und der Referenzgruppe an und β 2 gibt den Unterschied zwischen Gruppe 2 und der Referenzgruppe an. β0β1β2

In Anbetracht der folgenden Kommentare von @ whuber können diese auch über Matrixgleichungen dargestellt werden: diese Weise dargestellt sind & Vektoren der Länge und ist ein Vektor der Länge . ist jetzt eine Matrix mit Zeilen und Spalten. In einer prototypischen Regression haben Sie stetige Variablen und den Achsenabschnitt. Somit besteht Ihre Matrix aus einer Reihe von Spaltenvektoren nebeneinander, einer für jedes
Y

Y=Xβ+ε
YεNβp+1XN(p+1)pXXXVariable, mit einer Spalte von ganz links für den Schnittpunkt. 1

Wenn Sie auf diese Weise eine ANOVA mit Gruppen darstellen, denken Sie daran, dass Sie Dummy-Variablen haben, die die Gruppen angeben, wobei die Referenzgruppe durch eine Beobachtung mit in jeder Dummy-Variablen angegeben wird. Wie oben, hätten Sie immer noch einen Abfang. Somit ist . gg10p=g1


1
Die ANOVA-Gleichung wäre nur dann als ANOVA (und nicht als t-Test) sinnvoll, wenn als Vektor interpretiert und rechts multipliziert würde. β1
whuber

Dies sind keine Matrixgleichungen; Ich benutze diese hier selten, da viele Leute sie nicht lesen. Die 1. ANOVA repräsentiert eine identische Situation wie der vorangegangene t-Test. Ich weise nur darauf hin, dass Sie, wenn Sie einen unabhängigen T-Test mit zwei Stichproben durchführen können, dieselben Daten wie eine ANOVA durchführen können (die viele Menschen anhand ihrer Statistikklasse 101 erkennen / merken sollten). Ich füge eine weitere ANOVA-Version mit 3 Gruppen weiter unten hinzu, um zu verdeutlichen, dass eine Situation mit 2 Gruppen nicht der einzige ANOVA-Fall ist, der als Regression verstanden werden kann. aber die reg-Gleichung sieht jetzt anders aus - ich habe versucht, eine explizitere Parallele oben beizubehalten.
gung - Wiedereinsetzung von Monica

Mein Punkt ist , dass es sei denn , Sie tun ihm eine Matrixgleichung machen, Ihre Charakterisierung von ANOVA zu begrenzt ist , um nützlich zu sein: es ist identisch zu Ihrer Charakterisierung der T-Tests und so ist mehr verwirrend als hilfreich. Wenn Sie beginnen, mehr Gruppen einzuführen, ändern Sie plötzlich die Gleichung, die möglicherweise auch nicht eindeutig ist. Ob Sie die Matrixnotation verwenden möchten, liegt natürlich bei Ihnen, aber im Interesse einer guten Kommunikation sollten Sie nach Konsistenz streben.
whuber

Könnten Sie bitte etwas näher erläutern, wie Sie von der populären Definition von t-test zu der Gleichung kommen, die Sie gezeigt haben. Grundsätzlich kann ich nicht herausfinden, was Y hier ist (es könnte Naivität oder weniger IQ für Statistiken sein). Wie kommt man jedoch von t = (yx-u0) / s zu dieser Gleichung?
Gaurav Singhal

Dies ist nicht der Fall, obwohl Ihnen dies möglicherweise nicht vertraut ist. ist in allen aufgeführten Fällen stetig (& bedingt normal angenommen). Es gibt keine Verteilungsannahmen für , es kann eine kontinuierliche, dichotome oder mehrstufige kategoriale Variable sein. YX
gung - Wiedereinsetzung von Monica

16

Sie können alle als Sonderfälle des allgemeinen linearen Modells geschrieben werden.

Der t-Test ist ein Fall von ANOVA mit zwei Stichproben. Wenn Sie die t-Test-Statistik quadrieren, erhalten Sie das entsprechende in der ANOVA.F

Ein ANOVA-Modell ist im Grunde genommen nur ein Regressionsmodell, bei dem die Faktorstufen durch Dummy- Variablen (oder Indikatorvariablen ) dargestellt werden .

Wenn das Modell für einen t-Test eine Teilmenge des ANOVA-Modells und ANOVA eine Teilmenge des multiplen Regressionsmodells ist, ist die Regression selbst (und andere Dinge außer der Regression) eine Teilmenge des allgemeinen linearen Modells , das die Regression auf a erweitert allgemeinere Angabe des Fehlerterm als der üblichen Regressions Fall und multivariate (die ‚unabhängig‘ und ‚equal-Varianz‘ ist) .Y


Hier ist ein Beispiel , die Gleichwertigkeit der gewöhnlichen (equal-Varianz) zwei Proben- zeigt Analyse und einen Hypothesentest in einem Regressionsmodell erfolgt in R (das eigentlichen Daten Aussehen gekoppelt werden, so dass dies nicht wirklich eine geeignete Analyse ist) :t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

Beachten Sie den obigen p-Wert von 0,079. Hier ist die Einweganova:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

Nun zur Regression:

> summary(lm(extra ~ group, data = sleep))

(einige Ausgaben entfernt)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

Vergleichen Sie den p-Wert in der Zeile 'group2' und den p-Wert für den F-Test in der letzten Zeile. Bei einem zweiseitigen Test sind diese identisch und stimmen mit dem t-Testergebnis überein.

Der Koeffizient für 'Gruppe2' gibt außerdem die Differenz der Mittelwerte für die beiden Gruppen an.


Gleiche p-Werte in allen drei Szenarien zu haben, ist magisch und beeindruckend. Wenn Sie jedoch etwas näher erläutern könnten, wie diese p-Werte berechnet werden, würde dies diese Antwort definitiv interessanter machen . Ich weiß nicht, ob die Anzeige von p-Wert-Berechnungen es auch nützlicher macht , also ist das etwas, das Sie entscheiden könnten.
Gaurav Singhal

@Gaurav Die p-Werte sind dieselben, da Sie dieselbe Hypothese mit demselben Modell testen, nur leicht unterschiedlich dargestellt. Wenn Sie daran interessiert sind, wie ein bestimmter p-Wert berechnet wird, ist dies eine neue Frage (dies ist hier keine Antwort auf die Frage). Es steht Ihnen frei, eine solche Frage zu stellen, versuchen Sie jedoch zuerst eine Suche, da sie möglicherweise bereits beantwortet wurde.
Glen_b

Danke @Glen_b, entschuldige, dass du eine offensichtliche Frage gestellt hast und das auch nicht auf die beste Weise. Und Sie haben immer noch meine Frage beantwortet - "Dieselbe Hypothese für dasselbe Modell (und / oder dieselben Daten)". Ich habe nicht genug darüber nachgedacht, wie sie die gleiche Hypothese testen. Danke
Gaurav Singhal

2

Diese Antwort , die ich zuvor gepostet habe, ist etwas relevant, aber diese Frage ist etwas anders.

Möglicherweise möchten Sie über die Unterschiede und Ähnlichkeiten zwischen den folgenden linearen Modellen nachdenken:

[Y1Yn]=[1x11x21x31xn][α0α1]+[ε1εn]
[Y1Yn]=[10001000010001000010][α0αk]+[ε1εn]

2
Einige Beschreibungen und Kommentare zu den Fragen wären für die Leser nützlich, da sie jetzt raten müssen, woher sie kamen und wie sie sich auf die Frage beziehen ...
Tim

0

Anova ähnelt einem t-Test für die Mittelgleichheit unter der Annahme unbekannter, aber gleicher Abweichungen zwischen den Behandlungen. Dies liegt daran, dass MSE in ANOVA mit der im t-Test verwendeten gepoolten Varianz identisch ist. Es gibt andere Versionen von t-test, wie z. B. eine für ungleiche Varianzen und einen paarweisen t-test. Aus dieser Sicht kann t-test flexibler sein.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.