Warum können zentrierende unabhängige Variablen die Haupteffekte mit Mäßigung verändern?


28

Ich habe eine Frage zu multipler Regression und Interaktion, die von diesem CV-Thread inspiriert wurde: Interaktionsbegriff unter Verwendung von hierarchischen Regressionsanalysen mit zentrierten Variablen? Welche Variablen sollten wir zentrieren?

Bei der Überprüfung auf einen Moderationseffekt zentriere ich meine unabhängigen Variablen und multipliziere die zentrierten Variablen, um meinen Interaktionsterm zu berechnen. Dann führe ich meine Regressionsanalyse durch und überprüfe, ob Haupt- und Interaktionseffekte vorliegen, die möglicherweise die Moderation anzeigen.

Wenn ich die Analyse ohne Zentrierung wiederhole, ändert sich anscheinend der Bestimmungskoeffizient ( ) nicht, aber die Regressionskoeffizienten ( s). Das erscheint klar und logisch.R2β

Was ich nicht verstehe: Die p-Werte der Haupteffekte ändern sich wesentlich mit der Zentrierung, obwohl die Wechselwirkung dies nicht tut (was richtig ist). Meine Interpretation der Haupteffekte könnte sich also dramatisch ändern - nur durch Zentrieren oder nicht. (Es sind immer noch die gleichen Daten, in beiden Analysen!)

Kann das jemand klären? - Da dies bedeuten würde, dass die Option zum Zentrieren meiner Variablen obligatorisch wäre und jeder dies tun sollte, um dieselben Ergebnisse mit denselben Daten zu erzielen.


Vielen Dank für die Verbreitung dieses Problems und Ihre umfassenden Erklärungen. Seien Sie versichert, dass Ihre Hilfe sehr geschätzt wird!

Der größte Vorteil der Zentrierung ist für mich die Vermeidung von Multikollinearität. Es ist immer noch ziemlich verwirrend, eine Regel aufzustellen, ob man zentriert oder nicht. Mein Eindruck ist, dass die meisten Ressourcen darauf hindeuten, sich zu zentrieren, obwohl es dabei einige "Risiken" gibt. Ich möchte noch einmal darauf hinweisen, dass zwei Forscher, die sich mit demselben Material und denselben Daten befassen, möglicherweise unterschiedliche Ergebnisse erzielen, weil einer zentriert und der andere nicht. Ich habe gerade einen Teil eines Buches von Bortz gelesen (er war Professor und eine Art Statistik-Star in Deutschland und Europa), und er erwähnt diese Technik nicht einmal. Es wird lediglich darauf hingewiesen, dass bei der Interpretation der Haupteffekte von Variablen, die an Interaktionen beteiligt sind, Vorsicht geboten ist.

Wenn Sie eine Regression mit einer IV, einem Moderator (oder einer zweiten IV) und einem DV durchführen, würden Sie empfehlen, diese zu zentrieren oder nicht?


5
Ich benutze fast nie Zentrierung, finde es völlig unnötig und verwirrend.
Frank Harrell

3
Lesen Sie die Antworten noch einmal sorgfältig durch. Ihre Schlussfolgerungen ändern sich nicht , wenn Sie die unabhängigen Variablen zentrieren oder eine lineare Transformation anwenden - sofern sie korrekt gezeichnet sind. Multikollinearität aufgrund fehlender Zentrierung ist ein rein numerisches Problem, das von jeder anständigen Software automatisch behoben wird.
Scortchi

1
Dieses Phänomen (Änderung der p-Werte) kann als Folge der quadratischen Natur von Wechselwirkungen verstanden werden, wie unter stats.stackexchange.com/questions/28730/… erläutert .
Whuber

Antworten:


23

In Modellen ohne Interaktionsterme (dh ohne Terme, die als Produkt anderer Terme konstruiert wurden) ist der Regressionskoeffizient jeder Variablen die Steigung der Regressionsfläche in Richtung dieser Variablen. Sie ist unabhängig von den Werten der Variablen konstant und kann daher als Maß für den Gesamteffekt dieser Variablen angesehen werden.

In Modellen mit Wechselwirkungen kann diese Interpretation ohne weitere Einschränkung nur für diejenigen Variablen vorgenommen werden, die an keinen Wechselwirkungen beteiligt sind. Für eine Variable, die an Interaktionen beteiligt ist, ist der Regressionskoeffizient "Haupteffekt" - dh der Regressionskoeffizient der Variablen für sich - die Steigung der Regressionsfläche in Richtung dieser Variablen, wenn alle anderen Variablen dies tun Wechselwirkung mit dieser Variablen haben Werte von Null , und der Signifikanztest des Koeffizienten bezieht sich auf die Steigung der Regressionsfläche nur in diesem Bereich des Prädiktorraums. Da es nicht erforderlich ist, dass sich tatsächlich Daten in diesem Bereich des Raums befinden, kann der Haupteffektkoeffizient wenig Ähnlichkeit mit der Neigung der Regressionsfläche in dem Bereich des Prädiktorraums aufweisen, in dem Daten tatsächlich beobachtet wurden.

In Anova-Begriffen ist der Haupteffektkoeffizient analog zu einem einfachen Haupteffekt und nicht zu einem allgemeinen Haupteffekt. Darüber hinaus kann es sich bei einem Anova-Entwurf um leere Zellen handeln, in denen die Daten durch Extrapolation von Zellen mit Daten geliefert wurden.

Für ein Maß für den Gesamteffekt der Variablen, das einem Gesamteffekt in Anova entspricht und nicht über den Bereich hinaus extrapoliert wird, in dem Daten beobachtet wurden, müssen wir die durchschnittliche Steigung der Regressionsfläche in Richtung der Variablen betrachten , wobei die Mittelung über den tatsächlich beobachteten N Fällen liegt. Diese durchschnittliche Steigung kann als gewichtete Summe der Regressionskoeffizienten aller Terme im Modell ausgedrückt werden, an denen die betreffende Variable beteiligt ist.

Die Gewichte sind umständlich zu beschreiben, aber leicht zu bekommen. Der Haupteffektkoeffizient einer Variablen wird immer mit 1 gewichtet. Für jeden anderen Koeffizienten eines Terms, an dem diese Variable beteiligt ist, ist das Gewicht der Mittelwert des Produkts der anderen Variablen in diesem Term. Wenn wir zum Beispiel fünf "rohe" Variablen x1, x2, x3, x4, x5plus vier Zwei-Wege-Interaktionen (x1,x2), (x1,x3), (x2,x3), (x4,x5)und eine Drei-Wege-Interaktion haben (x1,x2,x3), dann ist das Modell

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

und die allgemeinen Haupteffekte sind

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

wobei M [.] das Probenmittel der Menge innerhalb der Klammern bezeichnet. Alle Produktbegriffe in den Klammern gehören zu den Begriffen, die zur Durchführung der Regression erstellt wurden. Daher sollte ein Regressionsprogramm bereits über sie Bescheid wissen und ihre Mittel auf Anfrage ausdrucken können.

In Modellen, die nur Haupteffekte und wechselseitige Wechselwirkungen aufweisen, gibt es einen einfacheren Weg, die Gesamteffekte zu ermitteln: Zentrieren Sie [1] die Rohvariablen nach ihren Mitteln. Dies erfolgt vor der Berechnung der Produktbedingungen und nicht für die Produkte. Dann werden alle M [.] Ausdrücke zu 0 und die Regressionskoeffizienten können als Gesamteffekte interpretiert werden. Die Werte der b ändern sich; die Werte der B werden nicht. Nur die Variablen, die an Interaktionen beteiligt sind, müssen zentriert werden. Die Zentrierung anderer gemessener Variablen schadet jedoch normalerweise nicht. Der allgemeine Effekt des Zentrierens einer Variablen besteht darin, dass zusätzlich zum Ändern des Achsenabschnitts nur die Koeffizienten anderer Variablen geändert werden, die mit der zentrierten Variablen interagieren. Bestimmtes, Die Koeffizienten von Begriffen, an denen die zentrierte Variable beteiligt ist, werden nicht geändert. In dem oben angegebenen Beispiel würde die Zentrierung von x1 b0, b2, b3 und b23 ändern.

[1 - "Zentrieren" wird von verschiedenen Personen in einer Weise verwendet, die gerade so unterschiedlich ist, dass sie Verwirrung stiften. Wie hier verwendet, bedeutet "Zentrieren einer Variablen bei #" das Subtrahieren von # von allen Bewertungen der Variablen und das Konvertieren der ursprünglichen Bewertungen in Abweichungen von #.]

Warum also nicht immer routinemäßig auf die Mittel konzentrieren? Drei Gründe. Erstens können die Haupteffektkoeffizienten der nicht zentrierten Variablen selbst von Interesse sein. In solchen Fällen wäre eine Zentrierung kontraproduktiv, da sie die Haupteffektkoeffizienten anderer Variablen ändert.

Zweitens werden durch die Zentrierung alle M [.] - Ausdrücke auf 0 gesetzt und somit einfache Effekte in Gesamteffekte umgewandelt, nur in Modellen ohne Wechselwirkung in drei Richtungen oder höher . Wenn das Modell solche Wechselwirkungen enthält, müssen die Berechnungen von b -> B immer noch durchgeführt werden, auch wenn alle Variablen auf ihren Mittelwerten zentriert sind.

Drittens bedeutet die Zentrierung auf einen Wert wie den Mittelwert, der durch die Verteilung der Prädiktoren definiert wird, anstatt rational gewählt zu werden, dass alle Koeffizienten, die von der Zentrierung betroffen sind, spezifisch für Ihre bestimmte Stichprobe sind. Wenn Sie sich auf den Mittelwert konzentrieren, muss sich jemand, der versucht, Ihre Studie zu replizieren, auf Ihren Mittelwert und nicht auf seinen eigenen Mittelwert konzentrieren, wenn er die gleichen Koeffizienten erhalten möchte, die Sie erhalten haben. Die Lösung für dieses Problem besteht darin, jede Variable auf einen rational gewählten zentralen Wert dieser Variablen zu zentrieren, der von der Bedeutung der Bewertungen und nicht von der Verteilung der Bewertungen abhängt. Die b -> B-Berechnungen bleiben jedoch weiterhin notwendig.

Die Signifikanz der Gesamteffekte kann durch die üblichen Verfahren zum Testen linearer Kombinationen von Regressionskoeffizienten getestet werden. Die Ergebnisse müssen jedoch mit Vorsicht interpretiert werden, da die Gesamteffekte keine strukturellen Parameter sind, sondern vom Design abhängen. Es ist zu erwarten, dass die Strukturparameter - die Regressionskoeffizienten (nicht zentriert oder mit rationaler Zentrierung) und die Fehlervarianz - bei Änderungen der Verteilung der Prädiktoren unverändert bleiben, die Gesamteffekte ändern sich jedoch im Allgemeinen. Die Gesamteffekte sind für die jeweilige Stichprobe spezifisch und sollten nicht auf andere Stichproben mit unterschiedlichen Verteilungen auf die Prädiktoren übertragen werden. Wenn ein Gesamteffekt in einer Studie signifikant ist und nicht in einer anderen, kann er lediglich einen Unterschied in der Verteilung der Prädiktoren widerspiegeln.


10

β

y=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x1x1x2β

ββ1yx1 x2=0x1yx2β1x2

βx1yx2yx1x2


-1

Ich war verrückt nach der gleichen Frage, aber ich habe endlich die Lösung für dein und mein Problem gefunden. Es geht nur darum, wie Sie Ihre zentralen Variablen berechnen. Es gibt zwei Möglichkeiten:
1. MITTEL - INDIVIDUELLE VARIABLEN 2. INDIVIDUELLE VARIABLEN - MITTEL
Sie haben Ihre zentrierten Variablen wahrscheinlich als (einzelne Variable - Mittelwert) berechnet , daher würden diejenigen mit niedrigen Werten negative Werte erhalten und diejenigen mit hohen Werten positiv Partituren.
Ich erkläre dies anhand eines Beispiels, um das Verständnis zu erleichtern. Ich möchte sehen, wie sich die Muskelkraft auf die Knochenmasse auswirkt, und ich möchte das Geschlecht berücksichtigen, um festzustellen, ob es sich bei Mädchen und Jungen unterschiedlich auswirkt. Die Idee ist, dass die Knochenmasse umso höher ist, je höher die Muskelkraft ist. Ich habe also:

Abhängige Variable: Knochenmasse Unabhängige Variablen: Geschlecht, Muskelkraft, Interaktion_SEX_MUSCLEkraft.

Da ich Multikollinearität gefunden habe (normalerweise, wenn Sie einen Interaktionsbegriff haben), habe ich die Muskelkraft zentriert (BEDEUTUNG - INDIVIDUELLE VARIABLE) und den neuen Interaktionsbegriff mit der neuen zentrierten Variablen erstellt. Meine Koeffizienten waren

0.902
-0.010
-0.023
0.0002

0,902-(00,010)-(0,023musclecentredveinlue)+(ichntereinctichOn0,0002)

Wenn Sie dies betrachten, denken Sie vielleicht, dass der Muskel den Knochen negativ beeinflusst, aber Sie müssen an Ihre zentrierten Variablen denken, nicht an Ihre ursprünglichen Variablen. Nehmen wir an, die mittlere Muskelkraft der Gruppe war von 30 KG. Und Sie möchten die Knochenmasse eines Jungen (WEAKBOY), der auftrat, 20 KGund eines anderen Jungen (STRONGBOY) 40KGschätzen. Die zentrierten Werte von WEAKBOY sind (MEAN GROUP VALUE - INDIVIDUAL VALUE; 30 - 20 = 10) und für STRONGBOY -10. Anwenden dieser Werte auf die Gleichung:

WEAKBOY-Knochenmasse = 0,902 - 0 - (0,023 * 10) + .... = 0,672

STRONGBOY Knochenmasse = 0,902 - (0,023 * (- 10)) + ... = 1,132

Wie Sie sehen, wird STRONGBOY tatsächlich einen stärkeren Knochen haben. Wenn Sie Ihre Variablen umgekehrt zentriert haben: (INDIVIDUAL - MEAN), sind alle Koeffizienten gleich, aber die Symbole sind unterschiedlich. Dies liegt daran, dass beim Anwenden der zentrierten Variablen WEAKBOY (-10) und STRONGBOY (+10) ist. Daher werden die Endergebnisse genau gleich sein.

Es macht alles Sinn, wenn Sie es verstanden haben.

Hoffe das Beispiel ist klar genug.


Dieser Fehler würde die Änderungen der p-Werte nicht erklären. Übrigens, Ihre Option (1) zentriert nicht, da sie auch das Multiplizieren der Werte mit einer Konstanten beinhaltet. (Die Konstante ist -1.)
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.