Wie sind sie alle Versionen der gleichen statistischen Grundmethode?
Wie sind sie alle Versionen der gleichen statistischen Grundmethode?
Antworten:
Bedenken Sie, dass sie alle als Regressionsgleichung geschrieben werden können (möglicherweise mit geringfügig abweichenden Interpretationen als ihre traditionellen Formen).
Regression:
t-Test:
ANOVA:
Die prototypische Regression wird mit als stetige Variable konzipiert. Die einzige Annahme, die tatsächlich über X gemacht wird, ist, dass es sich um einen Vektor bekannter Konstanten handelt. Es kann sich um eine kontinuierliche Variable handeln, es kann sich aber auch um einen Dummy-Code handeln (dh einen Vektor aus 0 und 1 , der angibt, ob eine Beobachtung Mitglied einer angegebenen Gruppe ist - z. B. einer Behandlungsgruppe). Somit könnte X in der zweiten Gleichung ein solcher Dummy-Code sein, und der p-Wert wäre der gleiche wie der eines t-Tests in seiner traditionelleren Form.
Die Bedeutung der Betas würde sich hier jedoch unterscheiden. In diesem Fall wäre der Mittelwert der Kontrollgruppe (für die die Einträge in der Dummy-Variablen 0 sind ), und β 1 wäre die Differenz zwischen dem Mittelwert der Behandlungsgruppe und dem Mittelwert der Kontrolle Gruppe.
Denken Sie jetzt daran, dass es durchaus sinnvoll ist, eine ANOVA mit nur zwei Gruppen durchzuführen (obwohl ein T-Test häufiger vorkommt), und dass alle drei miteinander verbunden sind. Wenn Sie es vorziehen zu sehen, wie es funktionieren würde, wenn Sie eine ANOVA mit 3 Gruppen hätten; es wäre: Beachtendasswenn Sie haben g Gruppen, haben Sie g - 1 DummyCodesum sie darzustellen. Die Referenzgruppe (normalerweise die Kontrollgruppe) wird durch 0 füralleDummy-Codes angegeben (in diesem Fall sowohl Dummy-Code 1 als auch Dummy-Code 2). In diesem Fall möchten Sie die p-Werte der t-Tests für diese Beta-Tests, die mit einer statistischen Standardausgabe geliefert werden, nicht interpretieren. Sie geben nur an, ob sich die angegebene Gruppe von der Kontrollgruppe unterscheidet,wenn sie isoliert bewertet wird
In Anbetracht der folgenden Kommentare von @ whuber können diese auch über Matrixgleichungen dargestellt werden:
diese Weise dargestellt sind & Vektoren der Länge und ist ein Vektor der Länge . ist jetzt eine Matrix mit Zeilen und Spalten. In einer prototypischen Regression haben Sie stetige Variablen und den Achsenabschnitt. Somit besteht Ihre Matrix aus einer Reihe von Spaltenvektoren nebeneinander, einer für jedes
Y
Wenn Sie auf diese Weise eine ANOVA mit Gruppen darstellen, denken Sie daran, dass Sie Dummy-Variablen haben, die die Gruppen angeben, wobei die Referenzgruppe durch eine Beobachtung mit in jeder Dummy-Variablen angegeben wird. Wie oben, hätten Sie immer noch einen Abfang. Somit ist .
Sie können alle als Sonderfälle des allgemeinen linearen Modells geschrieben werden.
Der t-Test ist ein Fall von ANOVA mit zwei Stichproben. Wenn Sie die t-Test-Statistik quadrieren, erhalten Sie das entsprechende in der ANOVA.
Ein ANOVA-Modell ist im Grunde genommen nur ein Regressionsmodell, bei dem die Faktorstufen durch Dummy- Variablen (oder Indikatorvariablen ) dargestellt werden .
Wenn das Modell für einen t-Test eine Teilmenge des ANOVA-Modells und ANOVA eine Teilmenge des multiplen Regressionsmodells ist, ist die Regression selbst (und andere Dinge außer der Regression) eine Teilmenge des allgemeinen linearen Modells , das die Regression auf a erweitert allgemeinere Angabe des Fehlerterm als der üblichen Regressions Fall und multivariate (die ‚unabhängig‘ und ‚equal-Varianz‘ ist) .
Hier ist ein Beispiel , die Gleichwertigkeit der gewöhnlichen (equal-Varianz) zwei Proben- zeigt Analyse und einen Hypothesentest in einem Regressionsmodell erfolgt in R (das eigentlichen Daten Aussehen gekoppelt werden, so dass dies nicht wirklich eine geeignete Analyse ist) :
> t.test(extra ~ group, var.equal=TRUE, data = sleep)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
Beachten Sie den obigen p-Wert von 0,079. Hier ist die Einweganova:
> summary(aov(extra~group,sleep))
Df Sum Sq Mean Sq F value Pr(>F)
group 1 12.48 12.482 3.463 0.0792
Residuals 18 64.89 3.605
Nun zur Regression:
> summary(lm(extra ~ group, data = sleep))
(einige Ausgaben entfernt)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7500 0.6004 1.249 0.2276
group2 1.5800 0.8491 1.861 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared: 0.1613, Adjusted R-squared: 0.1147
F-statistic: 3.463 on 1 and 18 DF, p-value: 0.07919
Vergleichen Sie den p-Wert in der Zeile 'group2' und den p-Wert für den F-Test in der letzten Zeile. Bei einem zweiseitigen Test sind diese identisch und stimmen mit dem t-Testergebnis überein.
Der Koeffizient für 'Gruppe2' gibt außerdem die Differenz der Mittelwerte für die beiden Gruppen an.
Diese Antwort , die ich zuvor gepostet habe, ist etwas relevant, aber diese Frage ist etwas anders.
Möglicherweise möchten Sie über die Unterschiede und Ähnlichkeiten zwischen den folgenden linearen Modellen nachdenken:
Anova ähnelt einem t-Test für die Mittelgleichheit unter der Annahme unbekannter, aber gleicher Abweichungen zwischen den Behandlungen. Dies liegt daran, dass MSE in ANOVA mit der im t-Test verwendeten gepoolten Varianz identisch ist. Es gibt andere Versionen von t-test, wie z. B. eine für ungleiche Varianzen und einen paarweisen t-test. Aus dieser Sicht kann t-test flexibler sein.