Ich habe das Kapitel zur multiplen Regression von Datenanalyse und Grafik mit R: Ein beispielbasierter Ansatz gelesen und war etwas verwirrt, als ich herausfand, dass empfohlen wird, nach linearen Beziehungen zwischen erklärenden Variablen (mithilfe eines Streudiagramms) zu suchen, und falls es keine gibt. t überhaupt, die Umwandlung sie , damit sie noch mehr linear aufeinander bezogen werden. Hier einige Auszüge davon:
6.3 Eine Strategie zum Anpassen mehrerer Regressionsmodelle
(...)
Untersuchen Sie die Streudiagramm-Matrix mit allen erklärenden Variablen. (Das Einbeziehen der abhängigen Variablen ist zu diesem Zeitpunkt optional. ) Suchen Sie zunächst in den Darstellungen der erklärenden Variablen gegeneinander nach Hinweisen auf Nichtlinearität.
(...)
Dieser Punkt identifiziert eine Modellsuchstrategie - Suchmodelle, bei denen Regressionsbeziehungen zwischen erklärenden Variablen einer "einfachen" linearen Form folgen . Wenn einige paarweise Diagramme Hinweise auf Nichtlinearität zeigen, sollten Sie die Verwendung von Transformationen in Betracht ziehen, um nahezu lineare Beziehungen zu erhalten . Obwohl es nach dieser Strategie möglicherweise nicht unbedingt möglich ist, die Regressionsbeziehung angemessen zu modellieren, ist dies aus den unten angegebenen Gründen eine gute Strategie, um die Suche zu starten.
(...)
Wenn die Beziehungen zwischen erklärenden Variablen ungefähr linear sind, möglicherweise nach der Transformation, ist es möglich, Diagramme von Prädiktorvariablen gegen die Antwortvariable mit Sicherheit zu interpretieren.
(...)
Es ist möglicherweise nicht möglich, Transformationen einer oder mehrerer der erklärenden Variablen zu finden, die sicherstellen, dass die in den Bedienfeldern gezeigten (paarweisen) Beziehungen linear erscheinen. Dies kann sowohl bei der Interpretation der Diagnosediagramme für jede angepasste Regressionsgleichung als auch bei der Interpretation der Koeffizienten in der angepassten Gleichung zu Problemen führen . Siehe Cook und Weisberg (1999).
Sollte ich mir keine Sorgen über lineare Beziehungen zwischen abhängigen Variablen machen (wegen des Risikos der Multikollinearität), anstatt sie aktiv zu verfolgen? Was sind die Vorteile von annähernd linear verwandten Variablen?
Die Autoren befassen sich später in diesem Kapitel mit dem Thema Multikollinearität, aber diese Empfehlungen scheinen im Widerspruch zur Vermeidung von Multikollinearität zu stehen.