Beziehung zwischen und Korrelationskoeffizient


39

Angenommen, ich habe zwei eindimensionale Arrays, und . Jedes enthält 100 Datenpunkte. sind die tatsächlichen Daten und ist die Modellvorhersage. In diesem Fall wäre der Wert: In der Zwischenzeit wäre dies gleich dem Quadratwert des Korrelationskoeffizienten Wenn ich nun die beiden vertausche: sind die tatsächlichen Daten und ist die Modellvorhersage. Aus Gleichung ergibt sich, da es für den Korrelationskoeffizienten nicht wichtig ist, welcher zuerst kommt, dera1a2a1a2R2R 2 ( 1 ) S S t o t = Σ i ( y i - ˉ y ) 2 R 2 S S t o t y a 1 ein 2 S S R e s = & Sgr; i ( f i - ˉ y ) 2

R2=1SSresSStot  (1).
a 2 a 1 ( 2 )
R2=(Correlation Coefficient)2(2).
a2a1(2)R2 Wert von wäre der gleiche. Aus Gleichung , , ändert sich jedoch der Wert, weil sich geändert hat, wenn wir von auf umschalten ; In der Zwischenzeit nicht.(1)SStot=i(yiy¯)2R2SStotya1a2SSres=i(fiy¯)2

Meine Frage ist: Wie können sich diese widersprechen?

Bearbeiten :

  1. Ich habe mich gefragt, ob die Beziehung in Gl. (2) noch stehen, wenn es sich nicht um eine einfache lineare Regression handelt, dh die Beziehung zwischen IV und DV nicht linear ist (könnte exponentiell / log sein)?

  2. Wird diese Beziehung bestehen bleiben, wenn die Summe der Vorhersagefehler ungleich Null ist?


Ich fand diese Präsentation sehr hilfreich und nicht technisch: google.com/…
ihadanny

Antworten:


19

Dies ist wahr, dass sich ändern wird ... aber Sie haben vergessen, dass sich auch die Regressionssumme der Quadrate ändern wird. Betrachten wir also das einfache Regressionsmodell und bezeichnen den Korrelationskoeffizienten als , zu dem ich den Subindex habe betonen Sie die Tatsache, dass die unabhängige Variable und die abhängige Variable ist. Offensichtlich bleibt unverändert, wenn Sie mit tauschen . Wir können leicht zeigen, dass , wobei die Regressionssumme von Quadraten und r 2 x y = S 2 x ySStot xyxyr2 x y xySSRxy=Syy(R2 x y )SSRxySyyxyR2 x y =SSRxyrxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxySyyist die Gesamtsumme der Quadrate, wobei unabhängig ist und eine abhängige Variable ist. Also: wobei ist die entsprechende Restsumme der Quadrate, wobei unabhängig und abhängig von der Variablen ist. Beachten Sie, dass in diesem Fall mit vorliegt (siehe z. B. Gleichung (34) - ( 41) hier .) Also:Die obige Gleichung ist eindeutig symmetrisch in Bezug aufxySSExyxySSExy=b2 x y Sxxb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx R2 x y =Syy- S 2 x yb=SxySxx
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xund . Mit anderen Worten:Um zusammenzufassen, wenn Sie mit im einfachen Regressionsmodell ändern, ändern sich sowohl Zähler als auch Nenner von in einer Weise, dassy
Rxy2=Ryx2.
xyRxy2=SSRxySyyRxy2=Ryx2.

Ich danke dir sehr! Mir ist aufgefallen, dass ich mich hier möglicherweise geirrt habe: steht nur, wenn 1) die Modellvorhersage eine gerade Linie ist und 2) der Mittelwert der Modellvorhersage dem Mittelwert der Stichprobenpunkte entspricht. Wenn die Beziehung zwischen DV und IV keine gerade Linie ist oder die Summe der Vorhersagefehler ungleich Null ist, besteht die Beziehung nicht. Könnten Sie mir bitte mitteilen, ob dies korrekt ist? R2=r2
Shawn Wang

1
Ich habe darüber nachgedacht, weil Sie , während ich die Gleichung verwendete, die ich im OP gepostet habe. Diese beiden Gleichungen sind nur dann einander äquivalent, wenn die Summe der Vorhersagefehler Null ist. Daher in meinem OP nicht, während sich ändert, und daher wird geändert. S S r e s = Σ i ( f i - ˉ y ) 2 S S t o t R 2R2=SSreg/SStotSSres=i(fiy¯)2SStotR2
Shawn Wang

Haben Sie zufällig eine Referenz, wie Sie dies für den allgemeinen Fall von p-variablen Gaußschen erarbeiten können?
jmb

26

Eine Möglichkeit, den Bestimmungskoeffizienten zu interpretieren, besteht darin, ihn als quadratischen Pearson-Korrelationskoeffizienten zwischen den beobachteten Werten und den angepassten Werten . y i y iR2yiy^i

Der vollständige Beweis, wie der Bestimmungskoeffizient R2 aus dem quadratischen Pearson-Korrelationskoeffizienten zwischen den beobachteten Werten yi und den angepassten Werten y ^ i abgeleitet werden kann, ist unter dem folgenden Link zu finden:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

In meinen Augen sollte es ziemlich einfach zu verstehen sein, folge einfach den einzelnen Schritten. Ich denke, es ist wichtig zu verstehen, wie die Beziehung zwischen den beiden Schlüsselfiguren tatsächlich funktioniert.


6

Im Falle einer einfachen linearen Regression mit nur einem Prädiktor ist . Bei der multiplen linearen Regression mit mehr als einem Prädiktor wird das Konzept der Korrelation zwischen den Prädiktoren und der Antwort nicht automatisch erweitert. Die Formel bekommt: R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

Das Quadrat der Korrelation zwischen der Antwort und dem angepassten linearen Modell.


5

@Stat hat eine detaillierte Antwort geliefert. In meiner kurzen Antwort werde ich kurz auf etwas andere Weise zeigen, was die Ähnlichkeit und der Unterschied zwischen und .r 2rr2

Y X X Y r .30r ist der standardisierte Regressionskoeffizient Beta von nach oder von nach und als solcher ein Maß für die (gegenseitige) Effektgröße . Was am deutlichsten zu sehen ist, wenn die Variablen dichotom sind. Dann bedeutet , zum Beispiel , dass 30% der Fälle ihren Wert in einer Variablen in das Gegenteil ändern, wenn die andere Variable ihren Wert in das Gegenteil ändert.YXXYr.30

r2 ist dagegen der Ausdruck für den Anteil der Co-Variabilität an der : . Es ist zu beachten, dass dies ein Produkt mit zwei Anteilen oder genauer gesagt zwei Verhältnissen ist (ein Verhältnis kann> 1 sein). Wenn lose impliziert wird, dass irgendein Anteil oder Verhältnis eine Quasi-Wahrscheinlichkeit oder Neigung ist, dann drückt "gemeinsame Wahrscheinlichkeit (Neigung)" aus. Ein anderer und als gültiger Ausdruck für das gemeinsame Produkt zweier Proportionen (oder Verhältnisse) wäre das geometrische Mittel , das sehr .r2=(covσxσy)2=|cov|σx2|cov|σy2r2proppropr

(Die beiden Verhältnisse sind multiplikativ und nicht additiv, um die Idee zu dass sie in ihrer Teamarbeit zusammenarbeiten und sich nicht ausgleichen können. Sie müssen multiplikativ sein, da die Größe von von beiden Größen und und conformably, hat zweimal in Folge einmal geteilt werden - um sich zu einem richtigen „Anteil der gemeinsamen Varianz“ zu konvertieren Aber. , die „cross-Varianz“, teilt die gleichen Maßeinheiten sowohl mit und , die " ", und nicht mitcovσx2σy2covcovσx2σy2σxσydie "hybride Varianz"; deshalb ist , nicht , angemessener als der "Anteil der geteilten Varianz".)r2r

Sie sehen also, dass die Bedeutung von und als Maß für die Menge der Assoziation unterschiedlich ist (beide Bedeutungen sind gültig), aber diese Koeffizienten widersprechen sich in keiner Weise. Und beide sind gleich, unabhängig davon, ob Sie oder vorhersagen .rr2Y~XX~Y


Ich danke dir sehr! Ich beginne mich zu fragen, ob ich die falsche Definition verwende, dass zwei Definitionen von nebeneinander existieren und sie nicht einander äquivalent sind. Könnten Sie mir bitte bei der Frage helfen, ob - wenn ich über allgemeinere Fälle nachdenke, in denen das Modell keine einfache lineare Regression ist (die exponentiell sein könnte) - meine Gleichung im OP für die Berechnung von noch korrekt ist ? Ist das eine andere Größe, auch , aber anders als der "Bestimmungskoeffizient"? R2R2R2
Shawn Wang

Bestimmungskoeffizient oder R-Quadrat ist ein breiteres Konzept als r ^ 2, bei dem es nur um einfache lineare Regression geht. Bitte lesen Sie Wikipedia en.wikipedia.org/wiki/Coefficient_of_determination .
TTNPHNS

Danke noch einmal! Das verstehe ich. Meine Frage ist: Kann ich bei komplexeren Regressionen den r-Wert immer noch quadrieren, um den Bestimmungskoeffizienten zu erhalten?
Shawn Wang

1
Für eine "komplexe Regression" erhält man ein R-Quadrat, aber kein r.
TTNPHNS

1

Ich denke, Sie könnten sich irren. Wenn , nehme ich an, dass Sie ein bivariates Modell haben: ein DV, ein IV. Ich denke nicht, dass sich ändern wird, wenn Sie diese austauschen oder wenn Sie die IV durch die Vorhersagen der DV ersetzen, die auf der IV basieren. Hier ist Code für eine Demonstration in R:R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

Wenn Sie nicht mit einem bivariaten Modell arbeiten, wirkt sich Ihre Wahl von DV auf ... es sei denn, Ihre Variablen sind alle identisch korreliert, aber dies ist keine große Ausnahme. Wenn alle Variablen identische Korrelationsstärken aufweisen und auch die gleichen Anteile der DV-Varianz aufweisen (z. B. [oder vielleicht "dh"], wenn einige der Variablen vollständig identisch sind), können Sie dies einfach auf ein bivariates Modell reduzieren, ohne zu verlieren irgendwelche Informationen. Ob Sie es tun oder nicht, würde sich immer noch nicht ändern.R2R2

In allen anderen Fällen kann ich mir mit mehr als zwei Variablen vorstellen, wobei der Bestimmungskoeffizient ist und ein bivariater Korrelationskoeffizient jeglicher Art ist (nicht notwendigerweise Pearsons; z. B. möglicherweise auch) ein Spearman ).R2r2R2rρ


1
Ich habe kürzlich die lineare Regression durchgeführt und dann und berechnet . Ich habe auch gesehen, wie Excel Werte erzeugt, und zuerst habe ich darüber gelacht, dann wurde mir langsam klar, und es hörte auf, lustig zu sein. Also ist die allgemeine Definition von korrekt? Was gibt. S S R > S S T - R 2 R 2R2=0.1468SSR>SSTR2R2
Carl
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.