Unterschied zwischen den einer Korrelation zugrunde liegenden Annahmen und einem Regressionssteigungstest von Bedeutung

21

Meine Frage entstand aus einer Diskussion mit @whuber in den Kommentaren einer anderen Frage .

Konkret lautete der Kommentar von @whuber wie folgt:

Ein Grund dafür könnte sein, dass die Annahmen, die einem Korrelationstest und einem Regressionssteigungstest zugrunde liegen, unterschiedlich sind. Selbst wenn wir verstehen, dass Korrelation und Steigung wirklich dasselbe messen, warum sollten ihre p-Werte dann gleich sein? Das zeigt, wie diese Probleme tiefer gehen als nur, ob und numerisch gleich sein sollten. $r$ $\beta$

Dies brachte mich zum Nachdenken und ich fand eine Vielzahl interessanter Antworten. Zum Beispiel fand ich diese Frage " Annahmen des Korrelationskoeffizienten ", kann aber nicht sehen, wie dies den obigen Kommentar verdeutlichen würde.

Ich habe in einer einfachen linearen Regression (siehe hier und hier zum Beispiel) interessantere Antworten über die Beziehung von Pearson's und der Steigung aber keine scheint zu beantworten, worauf sich @whuber in seinem Kommentar bezog (zumindest nicht offensichtlich) mir). $r$ $\beta$

Frage 1: Welche Annahmen liegen einem Korrelationstest und einem Regressionstest zugrunde?

Berücksichtigen Sie für meine zweite Frage die folgenden Ausgaben in R:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Und die Ausgabe der cor.test()Funktion:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906

Wie aus der ersichtlich ist , lm()und cov.test()Ausgabe der Korrelationskoeffizient Pearson und die Steigungsschätzung ( ) sind stark unterschiedlich, 0,96 vs. 0,485 bzw. aber der T-Wert und die p-Werte gleich sind. $r$ $\beta_1$

Dann habe ich auch versucht, herauszufinden, ob ich den t-Wert für und berechnen kann , die identisch sind, obwohl und unterschiedlich sind. Und da bleibe ich stecken, zumindest für : $r$ $\beta_1$ $r$ $\beta_1$ $r$

Berechnen Sie die Steigung ( ) in einer einfachen linearen Regression mit den Gesamtsummen der Quadrate von und : $\beta_1$ $x$ $y$

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Berechnen Sie die Schätzung der kleinsten Quadrate der Regressionssteigung (ein Beweis dafür ist in Crawleys R Book 1st Edition , Seite 393, zu finden): $\beta_{1}$

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Berechnen Sie den Standardfehler für : $\beta_1$

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

Und der t-Wert und der p-Wert für : $\beta_1$

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

Was ich an dieser Stelle nicht weiß, und dies ist Frage 2 , ist, wie man den gleichen t-Wert mit anstelle von berechnet (vielleicht in kleinen Schritten)? $r$ $\beta_1$

Ich gehe davon aus, dass ich, da cor.test()die alternative Hypothese lautet, ob die wahre Korrelation ungleich 0 ist (siehe cor.test()Ausgabe oben), so etwas wie den Pearson - Korrelationskoeffizienten dividiert durch den "Standardfehler des Pearson - Korrelationskoeffizienten" erwarten würde (ähnlich dem über)?! Aber was wäre dieser Standardfehler und warum? $r$ b1/se.b1

Vielleicht hat dies etwas mit den oben genannten Annahmen zu tun, die einem Korrelationstest und einem Regressionssteigungstest zugrunde liegen ?!

BEARBEITEN (27. Juli 2017): Während @whuber eine sehr ausführliche Erklärung für Frage 1 (und teilweise Frage 2 , siehe Kommentare unter seiner Antwort) lieferte , habe ich einige weitere Untersuchungen durchgeführt und festgestellt, dass diese beiden Beiträge ( hier und hier ) zutreffen zeigen einen spezifischen Standardfehler für , der gut funktioniert, um Frage 2 zu beantworten , dh den t-Wert zu reproduzieren, der : $r$ $r$

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

— Stefan
quelle

2

Es ist der gleiche Test oder zumindest ein äquivalenter Test. Wenn Sie die Hypothese ablehnen, dass die Korrelation nicht Null ist, lehnt der Test auch die Hypothese ab, dass die Steigung nicht Null ist.

— Michael R. Chernick

6

@Michael Richtig - aber hier gibt es viele mögliche Modelle, und sie sind auffallend unterschiedlich. Eines davon ist ein Standardmodell für die Korrelation. Das einfachste ist, dass die Daten aus einer unbekannten bivariaten Normalverteilung stammen. Eine andere ist eine Version eines OLS-Modells für die Regression von

gegen

- in zwei Varianten, festen Regressoren und zufälligen Regressoren. Eine weitere kehrt die Rollen von

und

. Wenn Sie das Gefühl haben, dass diese für vergleichbare Hypothesentests dieselben p-Werte ergeben sollten, ist dies wahrscheinlich nur durch umfassende Vertrautheit möglich, aber nicht intuitiv ersichtlich!

Y

$Y$

X

$X$

X

$X$

Y

$Y$

— Whuber

1

@whuber Angesichts der Tatsache, dass dieses Q so gut bewertet ist, aber keine zufriedenstellende Antwort gibt, habe ich ein Kopfgeld ausgesetzt, das heute früher zu Ende gegangen ist. Es ist in der Gnadenfrist. Es wurde eine neue Antwort veröffentlicht, die die Korrelationsberechnungen als Steigung gut erklärt, aber behauptet, dass es entgegen Ihrer zitierten Aussage keinen Unterschied bei den Annahmen gibt. Mein Kopfgeld wird dieser neuen Antwort automatisch gutgeschrieben, es sei denn, eine andere erscheint. Ich sage Ihnen Bescheid, falls Sie in Betracht ziehen, auch Ihre eigene Antwort zu veröffentlichen.

— Amöbe sagt Reinstate Monica

1

@amoeba Danke; Ich hatte das Kopfgeld nicht bemerkt. Ich habe einen Teilbericht darüber gepostet, was ich vorhatte, als ich die Bemerkung schrieb, die diese Frage auslöste. Ich hoffe, es ist ein Fortschritt in der von Ihnen vorgeschlagenen Richtung.

— Whuber

5

Einführung

Diese Antwort befasst sich mit der zugrunde liegenden Motivation für diese Reihe von Fragen:

Welche Annahmen liegen einem Korrelationstest und einem Regressionstest zugrunde?

In Anbetracht des Hintergrunds der Frage möchte ich jedoch vorschlagen, diese Frage ein wenig zu erweitern: Lassen Sie uns die verschiedenen Zwecke und Konzepte von Korrelation und Regression untersuchen.

Korrelation wird normalerweise in Situationen aufgerufen, in denen

Daten sind bivariat: Jedem "Subjekt" oder jeder "Beobachtung" sind genau zwei unterschiedliche interessierende Werte zugeordnet.
Die Daten sind Beobachtungsdaten: Keiner der Werte wurde vom Experimentator festgelegt. Beide wurden beobachtet oder gemessen.
Das Interesse liegt darin, eine Beziehung zwischen den Variablen zu identifizieren, zu quantifizieren und zu testen.

Wo wird Regression verwendet?

Daten sind bivariat oder multivariat: Es können mehr als zwei unterschiedliche Werte von Interesse sein.
Das Interesse konzentriert sich auf das Verständnis dessen, was über eine Teilmenge der Variablen - die "abhängigen" Variablen oder "Antworten" - gesagt werden kann, basierend auf dem, was über die andere Teilmenge - die "unabhängigen" Variablen oder "Regressoren" - bekannt sein könnte.
Spezifische Werte der Regressoren können vom Experimentator festgelegt worden sein.

Diese unterschiedlichen Ziele und Situationen führen zu unterschiedlichen Ansätzen. Da sich dieser Thread um ihre Ähnlichkeiten sorgt, konzentrieren wir uns auf den Fall, in dem sie am ähnlichsten sind: bivariate Daten. In beiden Fällen werden diese Daten typischerweise als Realisierungen einer Zufallsvariablen modelliert . Ganz allgemein streben beide Formen der Analyse nach relativ einfachen Charakterisierungen dieser Variablen. $(X,Y)$

Korrelation

Ich glaube, "Korrelationsanalyse" wurde nie allgemein definiert. Sollte es auf die Berechnung von Korrelationskoeffizienten beschränkt sein, oder könnte es umfassender als PCA, Clusteranalyse und andere Formen der Analyse betrachtet werden, die zwei Variablen in Beziehung setzen? Unabhängig davon, ob Ihre Sichtweise eng umschrieben oder weit gefasst ist, stimmen Sie vielleicht der folgenden Beschreibung zu:

Korrelation ist eine Analyse, die Annahmen über die Verteilung von , ohne eine der Variablen zu privilegieren, und die Daten verwendet, um spezifischere Schlussfolgerungen über diese Verteilung zu ziehen. $(X,Y)$

$(X,Y)$

$(X,Y)$ $k$ $(X,Y)$

$X$ $Y$

Regression

Regression hat eine klare, allgemein verständliche Definition:

$Y$ $X$

$(X,Y)$ $Y$ $X$ $Y$ $(\beta_0+\beta_1 X, \sigma^2)$ $\beta_0, \beta_1,$ $\sigma$ aus den Daten geschätzt werden.

$Y$ $X$ $Y$ $X$

Korrelation und Regression

Eine besondere Situation ist beiden Ansätzen gemeinsam und häufig anzutreffen: das bivariate Normalmodell. In diesem Modell nimmt ein Streudiagramm von Daten eine klassische "Fußball-", ovale oder Zigarrenform an: Die Daten sind elliptisch um ein orthogonales Achsenpaar verteilt.

Eine Korrelationsanalyse konzentriert sich auf die "Stärke" dieser Beziehung in dem Sinne, dass eine relativ geringe Streuung um die Hauptachse "stark" ist.
$Y$ $X$ $X$ $Y$

(Es lohnt sich, über die klaren geometrischen Unterschiede zwischen diesen beiden Beschreibungen nachzudenken: Sie beleuchten die zugrunde liegenden statistischen Unterschiede.)

$\rho$

$X$ $Y$ $X$
$Y$ $X$ $Y$
$(1)$ $(2)$
$(X,Y)$

$(4)$ $X$ $Y$

$(1)$ $(3)$

$H_0: \rho=0$ $Y$ $X$ $r$ $\hat\beta$

Diese gemeinsame Anwendung, die die erste ist, die man lernt, kann es schwierig machen, zu erkennen, wie unterschiedlich die Korrelation und die Regression in ihren Konzepten und Zielen sind. Nur wenn wir ihre Verallgemeinerungen kennen, werden die zugrunde liegenden Unterschiede aufgedeckt. Es wäre schwierig, ein GAM so zu interpretieren, dass es viele Informationen über "Korrelation" liefert, genauso wie es schwierig ist, eine Clusteranalyse als eine Form von "Regression" zu definieren. Bei beiden handelt es sich um unterschiedliche Verfahrensfamilien mit unterschiedlichen Zielsetzungen, die bei angemessener Anwendung jeweils für sich nützlich sind.

$r$ $\hat\beta$

— whuber
quelle

r

$r$

1

r

$r$

(X, Y)

$(X,Y)$

r

$r$

Ich lasse diese Dose Würmer für ein anderes Mal dann :) Danke für deinen Kommentar @whuber!

— Stefan

3

Wie aus der Antwort von @ whuber hervorgeht, gibt es eine Reihe von Modellen und Techniken, die unter den Korrelationsschirm fallen können und in einer Welt der Regression keine klaren Analoga haben und umgekehrt. Im Großen und Ganzen betrachten die Menschen jedoch, wenn sie über Regression und Korrelation nachdenken, diese vergleichen und gegenüberstellen, tatsächlich zwei Seiten derselben mathematischen Medaille (typischerweise eine lineare Regression und eine Pearson-Korrelation). Ob sie eine breitere Sicht auf beide Analysefamilien haben sollten, ist eine getrennte Debatte, mit der sich die Forscher zumindest minimal auseinandersetzen sollten.

$x$ $y$ $(x,y)$

In dieser engen Sichtweise von sowohl Regression als auch Korrelation sollten die folgenden Erklärungen helfen zu klären, wie und warum ihre Schätzungen, Standardfehler und p-Werte im Wesentlichen Varianten voneinander sind.

Wenn der Datenrahmen datder longleyDatensatz ist, auf den oben verwiesen wird, erhalten wir für den Kor.-Test Folgendes. (Es gibt hier nichts Neues, es sei denn, Sie haben die obige Frage übersprungen und die Antworten gelesen.):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906

Und das Folgende für das lineare Modell (auch dasselbe wie oben):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Nun zur neuen Komponente zu dieser Antwort. Erstellen Sie zunächst zwei neue standardisierte Versionen der Variablen Employedund Population:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Führen Sie die Regression erneut aus:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Voila! Die Regressionssteigung entspricht dem Korrelationskoeffizienten von oben. Die Antwort auf Frage 1 lautet dann, dass die Annahmen für beide Tests im Wesentlichen gleich sind:

Unabhängigkeit von Beobachtungen
$x$ $y$
$e\backsim N(0,\sigma_e^2)$
Fehlerterme werden bei jedem vorhergesagten Wert der Regressionsgeraden ähnlich verteilt (dh Homogenität der Fehlervarianz).

$x$ $y$

Für Frage 2 , lassen Sie sich mit dem Standardfehler der Regressionssteigung Formel beginnt oben (implizierte in dem R - Code - aber völlig unten angegeben) verwendet:

b = \frac{\sum (X_{ich} - \bar{X}) ({Y.}_{ich} - \bar{Y.})}{\sum (X_{ich} - \bar{X})^{2}}

$b=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2}$

$b$ $Var(b)$ $\mathbf{X_i}=(X_i-\bar{X})$ $\mathbf{Y_i}=(Y_i-\bar{Y})$

V ein r (b) = V ein r (\frac{\sum (X_{ich} {Y.}_{ich})}{\sum ({X_{ich}}^{2})})

$Var(b)=Var(\frac{\sum(\mathbf{X_i}\mathbf{Y_i})}{\sum(\mathbf{X_i}^2)})$

Aus dieser Formel können Sie den folgenden, komprimierten und nützlicheren Ausdruck erhalten ( siehe diesen Link für schrittweise Anweisungen ):

V ein r (b) = \frac{σ_{e}^{2}}{\sum (X_{ich} - \bar{X})^{2}}

$Var(b)=\frac{\sigma_e^2}{\sum(X_i-\bar{X})^2}$

S E (b) = \sqrt{V ein r (b)} = \sqrt{\frac{σ_{e}^{2}}{\sum (X_{ich} - \bar{X})^{2}}}

$SE(b) =\sqrt{Var(b)}=\sqrt{\frac{\sigma_e^2}{\sum(X_i-\bar{X})^2}}$

$\sigma_e^2$

Wenn Sie diese Gleichung für nicht standardisierte und standardisierte (dh Korrelations-) lineare Modelle lösen, erhalten Sie vermutlich dieselben p- und t-Werte für Ihre Steigungen. Beide Tests basieren auf einer gewöhnlichen Schätzung der kleinsten Quadrate und gehen von denselben Annahmen aus. In der Praxis überspringen viele Forscher die Überprüfung von Annahmen sowohl für einfache lineare Regressionsmodelle als auch für Korrelationen, obwohl dies meiner Meinung nach bei Korrelationen noch häufiger vorkommt, da sie von vielen Menschen nicht als Spezialfälle für einfache lineare Regressionen erkannt werden. (Hinweis: Dies ist keine bewährte Vorgehensweise.)

— Matt Barstead
quelle

2

Diese Antwort bezieht sich nicht auf das Zitat von @whuber, das in der Frage wiedergegeben ist, in der er behauptet, dass die Annahmen unterschiedlich sind. Wollen Sie damit sagen, dass diese Aussage falsch war?

— Amöbe sagt Reinstate Monica

Wenn Sie diese Gleichungen befolgen, hat eine Pearson-Korrelation die gleichen Grundannahmen einer einfachen linearen Regression. Ich kann meine Antwort ändern, um dies klarer auszudrücken.

— Matt Barstead

1

Vielen Dank für Ihre Antwort! Mir war bewusst, dass der Korrelationskoeffizient der Regressionssteigung entspricht, wenn er standardisiert ist. Dies wurde in Link 3 und 4 in meiner Frage gezeigt. Ich war mir auch der allgemeinen Annahmen bewusst, die Sie aufgeführt haben, und aus diesem Grund hat mich @whubers Kommentar zum Nachdenken gebracht und zu dieser Frage geführt. Ich hätte ausdrücklich angeben sollen, welche Annahmen mir bekannt sind - ich entschuldige mich.

— Stefan

1

r

$r$

r

$r$ r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956

0

Hier ist eine Erklärung der Äquivalenz des Tests, die auch zeigt, wie r und b zusammenhängen.

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

Um OLS durchzuführen, müssen Sie https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions eingeben

Zusätzlich erfordern OLS und corr die Annahme einer Zufallsstichprobe.

Die Erstellung eines Korrosionstests setzt voraus:

Wir haben eine "zufällige und ausreichend große Stichprobe" aus der Population von (x, y).

— Iwankomarow
quelle

0

Zu Frage 2

Wie berechnet man den gleichen t-Wert mit r anstelle von β1?

$t$ $r$ $F$ $r$

F = \frac{r^{2} / k}{(1 - r^{2}) / (n - k)}

$F = \frac{r^2/k}{(1-r^2)/(n-k)}$

$k=2$ $n=datapoints$

Mit der Einschränkung, dass

... das F-Verhältnis kann nicht verwendet werden, wenn das Modell keinen Schnittpunkt hat

Quelle: Hypothesentest im multiplen Regressionsmodell

— Harry Salmon
quelle

1

Ich habe mir den ursprünglichen Beitrag noch einmal angesehen, um festzustellen, auf welche Frage Sie möglicherweise antworten. Ich fand zwei, nummerierte 1 (über Annahmen) und 2 (über die Berechnung eines t-Werts), aber keiner scheint von dieser Antwort angesprochen zu werden. Können Sie uns genauer sagen, welche Frage Sie beantworten?

— whuber

1

r

$r$

1

Ich denke, ich verstehe, vielleicht habe ich die Frage eher im konkreten Fall als im Allgemeinen beantwortet. Ich denke, es wäre nützlich, die Frage in Bezug auf eine allgemeine Null- und Alternativhypothese formulieren zu können, um diesen allgemeinen Fall in Betracht ziehen zu können, wenn ich darum kämpfe.

— Harry Salmon

Ich stimme zu: Das Aufzeigen klarer Modelle und Entscheidungskriterien für die Korrelations- und Regressionsanalysen wäre eine große Hilfe bei der Unterscheidung. Manchmal besteht eine gute Antwort nur darin, die Frage neu zu formulieren oder zu klären, und oft beginnen die besten Antworten mit einer effektiven Neuformulierung der Frage. Haben Sie also keine Angst, in diese Richtung zu gehen.

— whuber