Ein Variablenpaar kann eine hohe partielle Korrelation aufweisen (wobei die Korrelation den Einfluss anderer Variablen berücksichtigt), jedoch eine geringe oder sogar keine marginale Korrelation (paarweise Korrelation).
Dies bedeutet, dass die paarweise Korrelation zwischen einer Antwort y und einem Prädiktor x für die Identifizierung geeigneter Variablen mit einem (linearen) "prädiktiven" Wert aus einer Sammlung anderer Variablen von geringem Wert sein kann.
Betrachten Sie die folgenden Daten:
y x
1 6 6
2 12 12
3 18 18
4 24 24
5 1 42
6 7 48
7 13 54
8 19 60
Die Korrelation zwischen y und x ist . Wenn ich die Linie mit den kleinsten Quadraten zeichne, ist sie perfekt horizontal und R 2 wird natürlich 0 sein .0R20
Wenn Sie jedoch eine neue Variable g hinzufügen, die angibt, aus welcher der beiden Gruppen die Beobachtungen stammen, wird x äußerst informativ:
y x g
1 6 6 0
2 12 12 0
3 18 18 0
4 24 24 0
5 1 42 1
6 7 48 1
7 13 54 1
8 19 60 1
Das eines linearen Regressionsmodells mit den Variablen x und g ist 1.R2
Es ist möglich, dass so etwas mit jeder der Variablen im Modell passiert - alle haben eine geringe paarweise Korrelation mit der Antwort, aber das Modell mit allen darin kann die Antwort sehr gut vorhersagen.
Zusätzliche Lektüre:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox