Es gibt einen Grund, warum Ihr statistischer Berater nicht erklären konnte, warum die Einführung einer Interaktion in ein lineares Modell die Korrelationsstruktur nachteilig beeinflussen kann: Dies hängt von den Umständen ab und es ist im Allgemeinen nicht richtig, dass ein nachteiliger Effekt vorliegt. Schauen Sie sich einfach die in den Streudiagramm-Matrizen unten gezeigten Datensätze an, um zu sehen, auf welche Weise zwei Variablen mit ihren Produkten in Beziehung stehen können.
Der Rest dieses Beitrags erklärt, wie diese Zahlen erstellt wurden, und bietet möglicherweise einen besseren Einblick in die Situation.
Lassen Sie uns zunächst das Offensichtliche aus dem Weg : Sie Sie eine multiple Regression mit den drei Variablen Ob es Kollinearitätsprobleme gibt oder nicht, hängt von den linearen Beziehungen zwischen Das ist universell.x3= x1x2,x1, x2, x3.xich.
Das Besondere an diesem Problem ist die Beziehung zwischen und dem anderennämlich, dass So , wenn jemand geraten hat Sie vorsichtig zu sein, muss es zu einer Erwartung zurückzuführen sein , dass diese multiplikative Beziehung mathematisch eine Art von multicollinearity unter allen bringtx3xich;;x3= x1x2.x i .xich.
Dies ist einfach nicht so, wie durch die Darstellung aller möglichen Muster gezeigt werden kann. Ich möchte Sie nicht mit der Pedanterie erschöpfen, alle Möglichkeiten durchzugehen, also lassen Sie mich nur einige der anschaulichsten skizzieren. Das grundlegende Werkzeug, das ich in dieser Studie verwenden werde, ist die Beobachtung, dass die Korrelation zwischen beliebigen Variablen unverändert bleibt, wenn die separat lineare Transformationen durchlaufen. x1, x2xich x 1 x 2 x i . Das heißt, wir können jede Variable frei mit Konstanten multiplizieren und den Ergebnissen andere Konstanten hinzufügen, ohne die Korrelation zu ändern. Diese Operationen können jedoch die Korrelationen zwischen und verändernx1x2xich.
(Fast) konstantes Produkt
Es ist möglich, dass konstant ist (was problematisch ist, wenn eine Regression eine Konstante enthält). Um ein Beispiel zu erstellen, generieren Sie einfach Werte ungleich Null für und definieren Sie Ihr Produkt entspricht konstruktionsbedingt .x1x2x1x2= c / x1.c
Sie können dieses Beispiel stören, indem Sie in eine Zufallsvariable mit Werten nahe ändern Wenn Sie dies tun, wird ein wenig Korrelation zwischen dem und seinem Produkt eingeführt, aber nicht viel. Hier ist zum Beispiel ein Beispiel, bei dem aus einer Gamma -Verteilung gezogen wird und eine Normalverteilung mit dem Mittelwert und einer Standardabweichung von nurc ≠ 0c .xichx1( 5 )c11 / 100 :
Obwohl die in diesem Beispiel eine Korrelation von , ihre Korrelationen mit nur undxichρ1 ⋅ 2= - 0,87x1x2- 0,060,00.
Obwohl es ein Problem geben kann, sowohl als auch in einem linearen Modell zu verwenden, ist es daher unwahrscheinlich, dass es verschlimmert.x1x2x1x2
Nicht konstantes Produkt
Um die Berechnungen klarer zu machen, können wir genauso gut annehmen, dass eine Einheitsvarianz hat. Die Varianz von sei und schreibe für die Korrelationen zwischen und Berechnen wir, was mit diesen Korrelationen passiert, wenn die Konstanten von subtrahiert werdenDa die perfekt symmetrische Rollen spielen (tauschen Sie einfach " " gegen " " in den Indizes), reicht es aus, die Korrelation mit zu berechnenxichx1x2τ2ρ12 ⋅ ix1x2xich.cichxich.xich12x1::
Cor( ( x1- c1) ( x2- c2) , x1)= Cov( ( x1- c1) ( x2- c2) , x1)Var( x1- c1) ( x2- c2) Varx1- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -√= Cov( x1x2- c2x1- c1x2+ c1c2, x1)Var( x1x2- c1x2- c2x1+ c1c2)- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -√= τρ12 ⋅ 1- c2- c1ρ1 ⋅ 2τ2- c1ρ1 ⋅ 2- c2- 2 c1ρ12 ⋅ 2- 2 c2ρ12 ⋅ 1+ 2 c1c2ρ1 ⋅ 2- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -√.(*)
Keine Korrelationen mit dem Produkt
Unabhängig davon, wie die Korrelation zwischen könnte, können wir wählen , um das Produkt nicht mit korrelierenxich( c 1 , c 2 ) x i .( c1, c2)xich.
Aus der vorstehenden Analyse wird dies erreicht, wenn der Zähler von für Null ist( ∗ )i = 1 , 2 :
{ 0 = τρ12 ⋅ 1- c2- c1ρ1 ⋅ 20 = τρ12 ⋅ 2- c1- c2ρ1 ⋅ 2
Wenn dieses Gleichungssystem in eine eindeutige Lösung. Hier ist zum Beispiel eine Streudiagrammmatrix eines Datensatzes von Werten, in der eine bivariate Normalverteilung mit Korrelation aber die keine Korrelation mit :ρ21 ⋅ 2≠ 1 ,( c1, c2)100( xich)ρ1 ⋅ 2= - 0,99xichx1x2
Da mit beiden ist ("orthogonal zu") Einführung in ein lineares Modell überhaupt nicht zu Problemen.x1x2xich,
Wie dieses Beispiel zeigt, ist diese Situation die Norm, da sie dazu neigt, aufzutreten, wenn zentriert wurde. Mit anderen Worten, wenn Sie Ihre Variablen vor dem Erstellen einer Interaktion zentrieren, treten normalerweise keine Probleme mit zusätzlicher Kollinearität auf.xich
Starke Korrelationen mit dem Produkt
Die Gleichungen können auch gelöst werden, um starke Korrelationen zu erzeugen. Wir müssen nicht einmal so weit gehen, um die Gleichungen genau zu lösen (was eine Herausforderung ist), da es eine einfache Abkürzung gibt: Indem wir eines der auf nahezu Null skalieren und eine Konstante hinzufügen, werden wir ihre Korrelation nicht ändern. aber dann ist das Produkt fast gleich einem Vielfachen des anderen der wodurch sie stark korreliert werden.( ∗ )xichx i ,xich,
Hier ist ein Beispiel, das auf dem vorherigen basiert. In diesem Beispiel wurde in geändert, sodass ungefähr gleich wodurch es stark positiv mit korreliert In diesem Beispiel ist und .x21+x2/100x1x2x1,x1x2.ρ12⋅1=0.999878ρ12⋅2=−0.9898793