Nun, es gibt eine Ad-hoc-Methode, die ich zuvor verwendet habe. Ich bin nicht sicher, ob dieses Verfahren einen Namen hat, aber es ist intuitiv sinnvoll.
Angenommen, Ihr Ziel ist es, das Modell anzupassen
Yi=β0+β1Xi+β2Zi+εi
wobei die beiden Prädiktoren - - stark korreliert sind. Wie Sie bereits betont haben, kann die Verwendung beider Werte im selben Modell seltsame Auswirkungen auf die Koeffizientenschätzungen und p- Werte haben. Eine Alternative besteht darin, das Modell anzupassenXi,Zip
Zi=α0+α1Xi+ηi
Dann ist der Rest nicht mit X i korreliert und kann in gewissem Sinne als der Teil von Z i angesehen werden , der durch seine lineare Beziehung zu X i nicht subsumiert wird . Anschließend können Sie mit dem Anpassen des Modells fortfahrenηiXiZiXi
Yi=θ0+θ1Xi+θ2ηi+νi
Das erfasst alle Effekte des ersten Modells (und hat tatsächlich genau das gleiche wie das erste Modell), aber die Prädiktoren sind nicht mehr kollinear.R2
Bearbeiten: Das OP hat um eine Erklärung gebeten, warum die Residuen definitiv keine Stichprobenkorrelation von Null mit dem Prädiktor haben, wenn Sie den Schnittpunkt weglassen, wie sie es tun, wenn der Schnittpunkt enthalten ist. Das ist zu lang, um es in den Kommentaren zu veröffentlichen, deshalb habe ich hier eine Änderung vorgenommen. Diese Herleitung ist nicht besonders aufschlussreich (ich konnte leider kein vernünftiges, intuitives Argument finden), zeigt aber, was das OP verlangt hat :
Wenn der Schnittpunkt in der einfachen linearen Regression wird weggelassen , β = Σ x i y i , alsoei=yi-xi∑xiyiβ^=∑xiyi∑x2i . Die Probe Korrelation zwischenxiundeiist proportional zu ¯ x e - ¯ x ¯ e wobei ¯ ⋅ bezeichnet die Probe Mittelwert der Menge unter der Stange. Ich werde jetzt zeigen, dass dies nicht unbedingt gleich Null ist.ei=yi−xi∑xiyi∑x2ixiei
xe¯¯¯¯¯−x¯¯¯e¯¯¯
⋅¯
Zuerst haben wir
xe¯¯¯¯¯=1n(∑xiyi−x2i⋅∑xiyi∑x2i)=xy¯¯¯¯¯(1−∑x2i∑x2i)=0
aber
x¯¯¯e¯¯¯=x¯¯¯(y¯¯¯−x¯¯¯⋅xy¯¯¯¯¯x2¯¯¯¯¯)=x¯¯¯y¯¯¯−x¯¯¯2⋅xy¯¯¯¯¯x2¯¯¯¯¯
so , um das und x i von genau 0 eine Probe Korrelation zu haben, müssen wir ¯ x ¯ e sein 0 . Das heißt, wir brauchen ¯ y = ¯ x ⋅ ¯ x yeixix¯¯¯e¯¯¯0
y¯¯¯=x¯¯¯⋅xy¯¯¯¯¯x2¯¯¯¯¯
das gilt im allgemeinen nicht für zwei beliebige Datensätze .x,y