Beachten Sie, dass die Linearitätsannahme, von der Sie sprechen, nur besagt, dass das bedingte Mittel von bei X i eine lineare Funktion istYiXi . Sie können den Wert von zum Testen dieser Annahme verwenden.R2
Dies liegt daran, dass lediglich die quadratische Korrelation zwischen den beobachteten und vorhergesagten Werten ist und der Wert des Korrelationskoeffizienten die Beziehung zwischen X und Y (linear oder anderweitig) nicht eindeutig bestimmt und beide der folgenden beiden Szenarien möglich sind: R2XY
Ich werde nacheinander auf Folgendes eingehen:
(1) High aber die Linearitätsannahme ist in einer wichtigen Hinsicht immer noch falsch:R2 Der Trick besteht darin, die Tatsache zu manipulieren, dass die Korrelation für Ausreißer sehr empfindlich ist . Angenommen , Sie haben Prädiktoren , die aus einer Mischungsverteilung erzeugt werden , die Standardnormal ist 99 % der Zeit und eine Punktmasse an M das anderen 1 % und eine Antwortvariable, die istX1,...,Xn99%M1%
Yi={ZiMif Xi≠Mif Xi=M
wobei und M eine positive Konstante ist, die viel größer als μ ist , z. B. μ = 0 , M = 10 5 . Dann werden X i und Y i fast perfekt korreliert:Zi∼N(μ,1)Mμμ=0,M=105XiYi
u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1
trotz der Tatsache, dass der erwartete Wert von bei X i nicht linear ist - tatsächlich ist es eine diskontinuierliche Stufenfunktion und der erwartete Wert von Y i hängt nicht einmal von X i ab, außer wenn X i = M ist .YiXiYiXiXi=M
(2) Niedriges aber die Linearitätsannahme ist noch erfüllt:R2 Der Trick hier besteht darin, die Menge an "Rauschen" um den linearen Trend groß zu machen. Angenommen, Sie haben einen Prädiktor und eine Antwort Y i und das ModellXiYi
Yi=β0+β1Xi+εi
war das richtige Modell. Daher ist das bedingte Mittel von gegebenem X i eine lineare Funktion von X i , so dass die Linearitätsannahme erfüllt ist. Wenn v a r ( ε i ) = σ 2 relativ zu β 1 groß ist, ist R 2 klein. Beispielsweise,YiXiXivar(εi)=σ2β1R2
x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698
Die Bewertung der Linearitätsannahme ist daher keine Frage, ob in einem tolerierbaren Bereich liegtR2 , sondern vielmehr darum, Streudiagramme zwischen den Prädiktoren / vorhergesagten Werten und der Antwort zu untersuchen und eine (möglicherweise subjektive) Entscheidung zu treffen.
Betreff: Was tun, wenn die Linearitätsannahme nicht erfüllt ist und auch die Transformation der IVs nicht hilft? !!
Wenn Nichtlinearität ein Problem ist, kann es hilfreich sein, Diagramme der Residuen gegenüber jedem Prädiktor zu betrachten. Wenn ein Muster erkennbar ist, kann dies auf Nichtlinearität in diesem Prädiktor hinweisen. Wenn dieses Diagramm beispielsweise eine "schalenförmige" Beziehung zwischen den Residuen und dem Prädiktor aufzeigt, kann dies auf einen fehlenden quadratischen Term in diesem Prädiktor hinweisen. Andere Muster können eine andere funktionale Form anzeigen. In einigen Fällen kann es sein, dass Sie nicht versucht haben, die Transformation zu korrigieren, oder dass das wahre Modell in keiner transformierten Version der Variablen linear ist (obwohl es möglich ist, eine vernünftige Annäherung zu finden).
R2