Zunächst stelle ich fest, dass multiple Regression nicht wirklich "kausale" Rückschlüsse auf die Daten liefert. Lassen Sie mich meinen aktuellen Fall erklären:
Ich habe vier unabhängige Variablen, von denen ich hoffe (aber nicht sicher bin), dass sie das messen, was ich messe. Ich wollte die multiple Regression verwenden, um zu sehen, wie viel jede dieser Variablen zu meiner abhängigen Variablen beiträgt, und tat dies auch. Angeblich beeinflusst die Variable "Nummer vier" mein Ergebnis sehr stark (Beta-Gewicht nahe 0,7).
Mir wurde jedoch gesagt, dass dies nicht ausreicht, da einige meiner "unabhängigen" Variablen tatsächlich miteinander korreliert sein können. In diesem Fall könnte ich denken, dass "Variable vier" meine abhängige Variable antreibt, wenn tatsächlich drei und vier gleichermaßen einen Beitrag leisten könnten. Das scheint richtig zu sein, aber da ich neu darin bin, bin ich mir nicht sicher.
Wie kann ich dieses Problem in Zukunft systematisch vermeiden? Welche spezifischen Verfahren würden Sie empfehlen, wenn Sie die multiple Regression verwenden, um sicherzustellen, dass Ihre "unabhängigen" Daten nicht bereits versteckte Korrelationen enthalten?
Bearbeiten: Die Daten selbst sind eine Reihe von Netzwerkmodellen (Grafiken) eines bestimmten neurologischen Zustands. Ich messe den "Clustering-Koeffizienten", der die Topologie jedes Netzwerks als Ganzes beschreibt (hier abhängige Variable), und sehe dann, ob die einzelnen Konnektivitäten von vier Knoten im größeren Netzwerk über 100 die globalen Clustering-Werte steuern (vier unabhängige) Variablen). Diese Knoten sind jedoch Teil eines Netzwerks, so dass es per Definition möglich ist, dass sie zu einem gewissen Grad korrelieren.