Unterschied zwischen Regressionsanalyse und Varianzanalyse?

21

Ich lerne gerade etwas über die Regressionsanalyse und die Varianzanalyse.

In der Regressionsanalyse haben Sie eine Variable festgelegt und möchten wissen, wie die Variable mit der anderen Variablen verhält.

Bei der Varianzanalyse möchten Sie zum Beispiel wissen, ob dieses spezielle Tierfutter das Gewicht der Tiere beeinflusst ... SO eine feste Varianz und der Einfluss auf die anderen ...

Ist das richtig oder falsch, bitte helfen Sie mir ...

regression

— Le Max
quelle

25

Angenommen, Ihr Datensatz besteht aus einer Menge für und Sie möchten die Abhängigkeit von von . $(x_i,y_i)$ $i=1,\ldots,n$ $y$ $x$

Angenommen , Sie die Werte finden und von und , dass minimieren , um die Restsumme der Quadrate Dann nehmen Sie der vorhergesagt wird - Wert für jeden (nicht notwendigerweise bereits beobachtet) -Wertes. Das ist eine lineare Regression. $\hat\alpha$ $\hat\beta$ $\alpha$ $\beta$

\sum_{ich = 1}^{n} (y_{ich} - (α + β x_{ich}))^{2} .

$\sum_{i=1}^n (y_i - (\alpha+\beta x_i))^2.$

\hat{y} = \hat{α} + \hat{β} x

$\hat y = \hat\alpha+ \hat\beta x$

y

$y$

x

$x$

Betrachten Sie nun die Zerlegung der Gesamtsumme der Quadrate mitFreiheitsgraden, in "erklärt" und "unerklärlichen" Teile: mit

\sum_{ich = 1}^{n} (y_{ich} - \bar{y})^{2} woher \bar{y} = \frac{y_{1} + \dots + y_{n}}{n}

$\sum_{i=1}^n (y_i - \bar y)^2 \qquad\text{where }\bar y = \frac{y_1+\cdots+y_n}{n}$

n - 1

$n-1$

\underset{erklärt}{\underset{⏟}{\sum_{ich = 1}^{n} ((\hat{α} + \hat{β} x_{ich}) - \bar{y})^{2}}} + \underset{unerklärt}{\underset{⏟}{\sum_{ich = 1}^{n} (y_{ich} - (\hat{α} + \hat{β} x_{ich}))^{2}}} .

$\underbrace{\sum_{i=1}^n ((\hat\alpha+\hat\beta x_i) - \bar y)^2}_{\text{explained}}\ +\ \underbrace{\sum_{i=1}^n (y_i - (\hat\alpha+\hat\beta x_i))^2}_{\text{unexplained}}.$

1

$1$ bzw.

Freiheitsgrade. Das Varianzanalyse, und man dann hält Dinge wie F-Statistik

n - 2

$n-2$

DieseF-Statistik testet die Nullhypothese

.

F = \frac{\sum_{ich = 1}^{n} ((\hat{α} + \hat{β} x_{ich}) - \bar{y})^{2} / 1}{\sum_{ich = 1}^{n} (y_{ich} - (\hat{α} + \hat{β} x_{ich}))^{2} / (n - 2)} .

$F = \frac{\sum_{i=1}^n ((\hat\alpha+\hat\beta x_i) - \bar y)^2/1}{\sum_{i=1}^n (y_i - (\hat\alpha+\hat\beta x_i))^2/(n-2)}.$

β = 0

$\beta=0$

y = α + β_{ich}

$y = \alpha + \beta_i$

i

$i$

k

$k$

k - 1

$k-1$

n - k

$n-k$

Ein paar zusätzliche Punkte:

Für einige Mathematiker kann der obige Bericht den Anschein erwecken, dass das gesamte Feld nur das ist, was oben zu sehen ist, und es kann daher rätselhaft erscheinen, dass sowohl die Regression als auch die Varianzanalyse aktive Forschungsbereiche sind. Es gibt vieles, was nicht in eine Antwort passt, die hier veröffentlicht werden kann.
$y=\alpha+\beta x$

— Michael Hardy
quelle

5

@MichaelHardy Während die Zerlegung der Varianz in Komponenten in der Regression oft als Varianzanalysetabelle bezeichnet wird. Das ist nicht das, was Statistiker gemeinhin mit ANOVA meinen. Die Methoden 1) Lineare Regression, 2) Varianzanalyse und 3) Kovarianzanalyse sind Kategorien unter der allgemeinen Überschrift des allgemeinen linearen Modells, lineare Regression umfasst kontinuierliche Kovariaten, ANOVA umfasst nur diskrete Gruppen und ANCOVA ist eine Kombination aus kontinuierlichen Kovariaten und diskrete Gruppen.

— Michael R. Chernick

1

Informell spricht man manchmal so, und meine Antwort hat das nicht gesagt, aber man sollte wissen, dass (1) die Schätzung der kleinsten Quadrate von Koeffizienten in einem der beiden Probleme (kontinuierliche oder kategoriale Prädiktoren) und eine Zerlegung der Summe erfolgt von Quadraten mit ihren entsprechenden Freiheitsgraden - eine Anova-Tabelle - wird auch in einem der beiden Probleme durchgeführt.

— Michael Hardy

5

Mit diesem Zugeständnis muss man dann zugeben, dass an meiner Antwort nichts auszusetzen ist. Auch die Begriffe ANOVA, ANCOVA und Regression sind keine informellen Begriffe. Sie sind ausgesprochen formal und es ist falsch, dem OP mitzuteilen, dass ANOVA die Zerlegung der Varianz in der Regression ist. Die Tatsache, dass eine statistische Prozedur mit dem Namen anova ein beliebiges lineares Modell erstellen kann, beweist nichts. In SAS beschäftigt sich proc reg nur mit der Regression, proc anova nur mit der Varianzanalyse, wie ich sie definiert habe, und proc glm ist diejenige, die beides tut.

— Michael R. Chernick

1

.... und in R gibt "lm (....)" Regressionskoeffizienten in beiden Situationen an, und "anova (lm (....))" gibt die Zerlegung der Summe von Quadrat und Freiheitsgrad an, in beiden Situationen. Was "muss zugeben" betrifft, habe ich einige weitere Kommentare unter Ihre Antwort gesetzt. Wenn Sie logistische Regression erwähnen, ist es sicherlich klarer, wenn Sie sagen, dass das Wort "Regression" ein sehr weit gefasster Begriff ist, der viele Dinge umfassen kann, sobald Sie nicht über lineare Regression sprechen.

— Michael Hardy

@MichaelHardy Fühlen Sie sich frei, meine auf der stats.SE-Site aufgeworfene Frage zu kommentieren. Ich denke, dass Ihre Antwort und meine Antwort auf diese Frage beide in gewisser Weise richtig sind. Ich habe mit Sicherheit etwas dagegen, dass meine Antwort abgelehnt wird. Ich wollte die Meinungen anderer in der Statistik-Community dazu einholen.

— Michael R. Chernick

5

Der Hauptunterschied ist die Antwortvariable. Während sich die logistische Regression mit einer binären Antwort in der linearen Regressionsanalyse und auch mit einer nichtlinearen Regression befasst, ist die Antwortvariable kontinuierlich. Sie haben eine (oder mehrere) Variable (n) (auch Kovariaten genannt), die eine funktionale Beziehung zur kontinuierlichen Antwortvariablen haben. Bei der Varianzanalyse ist das Ansprechen kontinuierlich, gehört jedoch zu einigen verschiedenen Kategorien (z. B. Behandlungsgruppe und Kontrollgruppe). Bei der Varianzanalyse wird nach Unterschieden in der mittleren Antwort zwischen den Gruppen gesucht. In der linearen Regression sehen Sie, wie sich die Reaktion ändert, wenn sich die Kovariaten ändern. Ein anderer Weg, um den Unterschied zu betrachten, ist zu sagen, dass die Kovariaten in der Regression kontinuierlich sind, während sie in der Varianzanalyse eine diskrete Gruppe von Gruppen sind.

— Michael R. Chernick
quelle

6

Ich hätte die Frage als den Unterschied zwischen linearer Regression und Varianzanalyse verstanden. Die logistische Regression scheint vom Thema abzukommen. Ihr letzter Satz ist jedoch falsch. Die Varianzanalyse kann unabhängig davon durchgeführt werden, ob die Prädiktoren diskret oder kontinuierlich sind.

— Michael Hardy

1

Es gibt tatsächlich Prädiktoren für die Varianzanalyse. In Ihrem Beispiel ist der Prädiktor kategorisch, muss es aber nicht sein. Die Varianzanalyse berücksichtigt nicht nur Probleme mit "diskreten Gruppen".

— Michael Hardy

3

@MichaelHardy Ich mache einen Schritt zurück, weil ich bei der Überprüfung meiner statistischen Enzyklopädien einen Hinweis auf die Varianzanalyse in Bezug auf die Varianzzerlegung im allgemeinen linearen Modell finde. Aber der Begriff hat zwei Bedeutungen und ANOVA unterscheidet sich ziemlich oft von ANCOVA und Regression in der von mir beschriebenen Weise. Dem OP sollten daher beide Begriffe bekannt sein, derjenige, der sich auf das Inferne über Varianzkomponenten im allgemeinen linearen Modell bezieht, und derjenige, der sich auf die Unterklasse der linearen Modelle bezieht, die nur diskrete Gruppen betreffen.

— Michael R. Chernick

2

Ich halte die von Ihnen verwendete Verwendung für informell. Es scheint seltsam , logistische Regression zu erwähnen , ohne es ist nur eine von einer Vielzahl von „Regressionen“ zu sagen, wenn dieser Begriff im weitesten Sinne verwendet wird , einen durchschnittlichen oder vorhergesagten Wert einer Variablen zu schätzen gegeben andere und unterscheidet dann , dass aus der Analyse der Varianz . Die Frage nach dem Unterschied zwischen linearen Regressionsmodellen und der Varianzanalyse erscheint jedoch sinnvoller. Oft bestehen jedoch Unsicherheiten darüber, was das Originalplakat beabsichtigte.

— Michael Hardy

7

Was auch immer Ihre Absichten gewesen sein mögen, ich finde den Kommentar " Ich habe einen Doktortitel in Statistik, ... " unangemessen. Zuallererst hilft es nicht, das vorliegende Problem zu lösen. Die Berufung auf Autorität ist ein oft benutzter, aber sehr fehlgeleiteter Ansatz, um Dinge zu beweisen. Noch problematischer ist es, sich an Ihre eigene Behörde zu wenden. Es kann auch so interpretiert werden, dass (versehentlich oder auf andere Weise) ein Mangel an Respekt für @MichaelHardy (die Person, die Sie ansprechen) gezeigt wird, die zufällig auch über einen Doktortitel in Statistik eines sehr seriösen Programms verfügt.

— Kardinal

2

Die Varianzanalyse (ANOVA) ist eine statistische Methode zur Analyse von Beobachtungen, deren Struktur angenommen wird

$y_i=\beta_1x_{i1}+\beta_2x_{i2}+\dots+\beta_px_{ip}+e_i,~i=1(1)n$ $p$ $\beta_1,\beta_2,\dots,\beta_p$ $e_1,e_2,\dots,e_n$ $x_{ij}$ $e_i$ $0$ $\sigma^2$

$E(y^{n \times 1})=X\beta,D(y)=\sigma^2I_n$

$x_{ij}$ $\beta_j$ $x_{ij}$ } ist die Anzahl der Male $\beta_j$ tritt bei der i-ten Beobachtung auf, und dies ist normalerweise der Fall $0$ oder $1$ . In der Regel werden bei der Varianzanalyse alle Faktoren qualitativ behandelt.

Wenn der { $x_{ij}$ } sind Werte, die in den Beobachtungen nicht von Zählervariablen, sondern von stetigen Variablen wie übernommen werden $t$ = Zeit, $T$ = Temperatur, $t^2,e^{-T}$ usw, dann haben wir einen Fall von * Regressionsanalyse. In der Regressionsanalyse werden im Allgemeinen alle Faktoren quantitativ und quantitativ behandelt.

Hauptsächlich sind dies zwei Arten von Analysen.

— Argha
quelle

Was macht die Notation

i = 1 (1) n

$i=1(1)n$ bedeuten?

1

i = 1 (1) n

$i=1(1)n$ meint

i = 1, 2, \dots, n

$i=1,2,\dots,n$

— Argha

-1

In der Regressionsanalyse haben Sie eine Variable festgelegt und möchten wissen, wie die Variable mit der anderen Variablen verhält.

Bei der Varianzanalyse möchten Sie zum Beispiel wissen, ob dieses spezielle Tierfutter das Gewicht der Tiere beeinflusst ... SO eine feste Varianz und der Einfluss auf die anderen.

— Aiza
quelle

1

Hallo Aiza, willkommen bei SE. Sie müssen dies bearbeiten, um mehr Kontext zu erhalten und klar zu machen, um welche Frage es sich handelt.

— Hören Sie auf, Fragen schnell