Ich hätte erwartet, dass der Korrelationskoeffizient der gleiche ist wie eine Regressionssteigung (Beta), jedoch sind sie unterschiedlich, wenn man sie nur vergleicht. Wie unterscheiden sie sich - welche unterschiedlichen Informationen geben sie?
Ich hätte erwartet, dass der Korrelationskoeffizient der gleiche ist wie eine Regressionssteigung (Beta), jedoch sind sie unterschiedlich, wenn man sie nur vergleicht. Wie unterscheiden sie sich - welche unterschiedlichen Informationen geben sie?
Antworten:
Angenommen, Sie sprechen von einem einfachen Regressionsmodell geschätzt nach kleinsten Quadraten. Aus Wikipedia wissen wir, dass Daher stimmen die beiden nur überein, wenn . Das heißt, sie fallen nur dann zusammen, wenn die beiden Variablen in gewissem Sinne den gleichen Maßstab haben. Der häufigste Weg, dies zu erreichen, ist die Standardisierung, wie durch @gung angegeben.
Die beiden geben Ihnen in gewisser Weise die gleichen Informationen - sie geben jeweils Auskunft über die Stärke der linearen Beziehung zwischen und . Sie geben Ihnen jedoch jeweils unterschiedliche Informationen (außer natürlich, wenn sie genau gleich sind):
Durch die Korrelation erhalten Sie eine begrenzte Messung, die unabhängig von der Skalierung der beiden Variablen interpretiert werden kann. Je näher die geschätzte Korrelation an , desto näher sind die beiden an einer perfekten linearen Beziehung . Die Regressionssteigung allein sagt Ihnen diese Information nicht.
Die Regressionssteigung ergibt eine nützliche Größe, die als geschätzte Änderung des erwarteten Werts von für einen gegebenen Wert von interpretiert wird . Insbesondere gibt die Änderung des erwarteten Werts von an, die einer Erhöhung von 1 Einheit entspricht . Diese Information kann nicht allein aus dem Korrelationskoeffizienten abgeleitet werden.
Bei einer einfachen linearen Regression (dh nur 1 Kovariate) ist die Steigung dieselbe wie bei Pearson's wenn beide Variablen zuerst standardisiert wurden . (Für weitere Informationen, können Sie meine Antwort finden hier hilfreich.) Wenn Sie multiple Regression tun, kann dies komplizierter aufgrund multicollinearity usw.
Der Korrelationskoeffizient misst die "Enge" der linearen Beziehung zwischen zwei Variablen und ist zwischen -1 und einschließlich 1 begrenzt. Korrelationen nahe Null stellen keine lineare Assoziation zwischen den Variablen dar, wohingegen Korrelationen nahe -1 oder +1 eine starke lineare Beziehung anzeigen. Je einfacher es für Sie ist, eine Linie der besten Anpassung durch ein Streudiagramm zu zeichnen, desto besser korrelieren sie.
Die Regressionssteigung misst die "Steilheit" der linearen Beziehung zwischen zwei Variablen und kann einen beliebigen Wert von bis annehmen . Steigungen nahe Null bedeuten, dass sich die Antwortvariable (Y) langsam ändert, wenn sich die Prädiktorvariable (X) ändert. Steigungen, die weiter von Null entfernt sind (entweder in negativer oder positiver Richtung), bewirken, dass sich die Reaktion schneller ändert, wenn sich der Prädiktor ändert. Wenn Sie eine Linie mit der besten Anpassung durch ein Streudiagramm zeichnen, ist Ihre Steigung umso weiter von Null entfernt, je steiler sie ist.+ ∞
Der Korrelationskoeffizient und die Regressionssteigung MÜSSEN also das gleiche Vorzeichen (+ oder -) haben, haben aber fast nie den gleichen Wert.
Der Einfachheit halber geht diese Antwort von einer einfachen linearen Regression aus.
Der Pearson-Korrelationskoeffizient ist dimensionslos und wird unabhängig von der Dimension und dem Maßstab der Eingabevariablen zwischen -1 und 1 skaliert.
Wenn Sie (zum Beispiel) eine Masse in Gramm oder Kilogramm eingeben, hat dies keinen Einfluss auf den Wert von , wohingegen dies einen enormen Einfluss auf den Gradienten / die Steigung hat (der / die dimensioniert und entsprechend skaliert ist) würde keinen Unterschied für wenn die Skala in irgendeiner Weise angepasst wird, einschließlich der Verwendung von Pfund oder Tonnen.
Eine einfache Demonstration (Entschuldigung für die Verwendung von Python!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
zeigt, dass , obwohl die Steigung um den Faktor 10 erhöht wurde.
Ich muss zugeben, dass es ein guter Trick ist, bei dem zwischen -1 und 1 skaliert wird (einer jener Fälle, in denen der Zähler niemals einen Absolutwert haben kann, der größer als der Nenner ist).
Wie @Macro oben ausführlich beschrieben hat, ist die Steigung , sodass Sie richtig verstehen, dass Pearsons mit der Steigung zusammenhängt, jedoch nur, wenn es entsprechend angepasst wird zu den Standardabweichungen (dadurch werden die Maße und Maßstäbe effektiv wiederhergestellt!).
Zuerst fand ich es seltsam, dass die Formel darauf schließen lässt, dass eine locker angepasste Linie (niedriges ) zu einem niedrigeren Gradienten führt. dann habe ich ein Beispiel gezeichnet und festgestellt, dass bei gegebener Steigung eine Variation der "Lockerheit" zu einer Abnahme von was jedoch durch eine proportionale Zunahme von ausgeglichen wird .
In der folgenden Tabelle sind vier Datensätze dargestellt:
Es ist zu sehen, dass die Varianz beeinflusst, ohne notwendigerweise zu beeinflussen , und dass Maßeinheiten die Skalierung und somit beeinflussen können, ohne zu beeinflussen