Unterdrückungseffekt bei Regression: Definition und visuelle Erklärung / Darstellung


40

Was ist eine Suppressorvariable bei multipler Regression und wie kann der Suppressionseffekt visuell dargestellt werden (seine Mechanik oder sein Beweis in den Ergebnissen)? Ich möchte alle einladen, die einen Gedanken haben, zu teilen.



2
Ah, das ist nett und interessant. Vielen Dank. Möchten Sie darauf eine Antwort hinzufügen? Es wäre für viele hilfreich.
TTNPHNS

Antworten:


45

Es gibt eine Reihe von häufig erwähnten Regressionseffekten, die konzeptionell unterschiedlich sind, aber rein statistisch gesehen viele Gemeinsamkeiten aufweisen (siehe z. B. diesen Aufsatz "Äquivalenz des Mediations-, Verwirrungs- und Unterdrückungseffekts" von David MacKinnon et al. Oder Wikipedia-Artikel):

  • Mediator: IV, die dem DV die Wirkung (ganz oder teilweise) einer anderen IV vermittelt.
  • Confounder: IV, die die Auswirkung einer anderen IV auf den DV ganz oder teilweise darstellt oder ausschließt.
  • Moderator: IV, bei der die Stärke der Auswirkung einer anderen IV auf den DV variiert wird. Statistisch ist es als Interaktion zwischen den beiden IVs bekannt.
  • Suppressor: IV (ein Mediator oder ein Moderator), dessen Einbeziehung die Wirkung einer anderen IV auf den DV verstärkt.

Ich werde nicht diskutieren, inwieweit einige oder alle von ihnen technisch ähnlich sind (lesen Sie dazu das oben verlinkte Papier). Mein Ziel ist es, grafisch zu zeigen, was Suppressor ist. Die obige Definition, dass "Suppressor eine Variable ist, deren Einbeziehung die Wirkung einer anderen IV auf die DV verstärkt", scheint mir potenziell weit zu gehen, da sie nichts über Mechanismen einer solchen Verstärkung aussagt. Unten diskutiere ich einen Mechanismus - den einzigen, den ich als Unterdrückung betrachte. Wenn es auch andere Mechanismen gibt (wie im Moment, ich habe nicht versucht, darüber zu meditieren), dann sollte entweder die obige "breite" Definition als ungenau angesehen werden, oder meine Definition der Unterdrückung sollte als zu eng angesehen werden.

Definition (nach meinem Verständnis)

Suppressor ist die unabhängige Variable, die, wenn sie zum Modell hinzugefügt wird, das beobachtete R-Quadrat erhöht, hauptsächlich aufgrund der Berücksichtigung der Residuen, die das Modell ohne sie hinterlässt, und nicht aufgrund seiner eigenen Assoziation mit dem DV (das vergleichsweise schwach ist). Wir wissen, dass die Zunahme des R-Quadrats als Reaktion auf das Hinzufügen einer IV die quadratische Teilkorrelation dieser IV in diesem neuen Modell ist. Auf diese Weise ist diese IV ein Suppressor , wenn die Teilkorrelation der IV mit der DV größer ist (um den absoluten Wert) als die Null-Ordnung zwischen ihnen.r

Ein Suppressor "unterdrückt" also meist den Fehler des reduzierten Modells und ist als Prädiktor selbst schwach. Der Fehlerterm ist die Ergänzung zur Vorhersage. Die Vorhersage wird auf die IVs "projiziert" oder von diesen "geteilt" (Regressionskoeffizienten), ebenso wie der Fehlerterm ("Komplemente" zu den Koeffizienten). Der Suppressor unterdrückt solche Fehlerkomponenten ungleichmäßig: bei einigen IVs größer, bei anderen IVs geringer. Für diejenigen IVs, "deren" solche Komponenten stark unterdrückt werden, stellt dies eine erhebliche Erleichterungshilfe dar, indem ihre Regressionskoeffizienten tatsächlich erhöht werden .

Nicht stark unterdrückende Effekte treten häufig und wild auf (ein Beispiel auf dieser Site). Eine starke Unterdrückung wird typischerweise bewusst eingeführt. Ein Forscher sucht nach einer Eigenschaft, die mit dem DV so schwach wie möglich korrelieren muss und gleichzeitig mit etwas in der IV von Interesse korreliert, das in Bezug auf den DV als irrelevant und nicht vorhersagbar angesehen wird. Er gibt es in das Modell ein und erhält eine beträchtliche Steigerung der Vorhersagekraft dieser IV. Der Suppressorkoeffizient wird normalerweise nicht interpretiert.

Ich könnte meine Definition folgendermaßen zusammenfassen:

  • Formale (statistische) Definition: Suppressor ist IV mit Teilkorrelation größer als Korrelation nullter Ordnung (mit der abhängigen).
  • Konzeptionelle (praktische) Definition: Die obige formale Definition + die Korrelation nullter Ordnung ist klein, so dass der Suppressor selbst kein solider Prädiktor ist.

"Suppessor" ist nur eine Rolle einer IV in einem bestimmten Modell , nicht die Eigenschaft der separaten Variablen. Wenn andere IVs hinzugefügt oder entfernt werden, kann der Suppressor plötzlich aufhören, die Unterdrückung fortzusetzen oder den Fokus seiner Unterdrückungsaktivität zu ändern.

Normale Regressionssituation

Das erste Bild unten zeigt eine typische Regression mit zwei Prädiktoren (wir sprechen von linearer Regression). Das Bild wird von hier kopiert , wo es genauer erklärt wird. Kurz gesagt, die mäßig korrelierten Prädiktoren und X 2 (= mit einem spitzen Winkel dazwischen) überspannen den zweidimensionalen Raum "Ebene X". Die abhängige Variable Y wird orthogonal darauf projiziert, wobei die vorhergesagte Variable Y ' und die Residuen mit st belassen werden. Abweichung gleich der Länge von e . R-Quadrat der Regression ist der Winkel zwischen Y und Y 'X1X2YYeYYund die zwei Regressionskoeffizienten stehen in direkter Beziehung zu den Versatzkoordinaten bzw. b 2 . Diese Situation habe ich als normal oder typisch bezeichnet, da sowohl X 1 als auch X 2 mit Y korrelieren (zwischen jedem der Unabhängigen und dem Abhängigen besteht ein schiefer Winkel) und die Prädiktoren um die Vorhersage konkurrieren, weil sie korreliert sind.b1b2X1X2Y

Bildbeschreibung hier eingeben

Unterdrückungssituation

YX2X2YX2X1YebY

Bildbeschreibung hier eingeben

X2eX2eeX2X1X2X1X2X1b1b

X2X1

Bildbeschreibung hier eingeben

X1YeX1YX2YAuf jeden Fall sieht der relevante Teil stärker aus. Ein Suppressor ist kein Prädiktor, sondern ein Vermittler für einen anderen Prädiktor. Weil es mit dem konkurriert, was sie an Vorhersagen hindert.

Vorzeichen des Regressionskoeffizienten des Suppressors

eX2

Unterdrückung und Vorzeichenänderung des Koeffizienten

Das Hinzufügen einer Variablen, die einem Unterdrücker dient, kann das Vorzeichen einiger anderer Variablenkoeffizienten ändern oder auch nicht. "Unterdrückungs-" und "Vorzeichenwechsel" -Effekte sind nicht dasselbe. Darüber hinaus glaube ich, dass ein Suppressor niemals das Vorzeichen derjenigen Prädiktoren ändern kann, denen er als Suppressor dient. (Es wäre eine schockierende Entdeckung, den Suppressor absichtlich hinzuzufügen, um eine Variable zu vereinfachen, und dann festzustellen, dass sie zwar stärker geworden ist, aber in die entgegengesetzte Richtung! Ich wäre dankbar, wenn mir jemand zeigen könnte, dass dies möglich ist.)

Unterdrückungs- und Venn-Diagramm

Die normale Regressionssituation wird häufig mit Hilfe des Venn-Diagramms erklärt.

Bildbeschreibung hier eingeben

YX1X2rYX12rYX22rY(X1.X2)2rY(X2.X1)2rYX1.X22rYX2.X12

X2X2X1


Beispieldaten

         y         x1         x2

1.64454000  .35118800 1.06384500
1.78520400  .20000000 -1.2031500
-1.3635700 -.96106900 -.46651400
 .31454900  .80000000 1.17505400
 .31795500  .85859700 -.10061200
 .97009700 1.00000000 1.43890400
 .66438800  .29267000 1.20404800
-.87025200 -1.8901800 -.99385700
1.96219200 -.27535200 -.58754000
1.03638100 -.24644800 -.11083400
 .00741500 1.44742200 -.06923400
1.63435300  .46709500  .96537000
 .21981300  .34809500  .55326800
-.28577400  .16670800  .35862100
1.49875800 -1.1375700 -2.8797100
1.67153800  .39603400 -.81070800
1.46203600 1.40152200 -.05767700
-.56326600 -.74452200  .90471600
 .29787400 -.92970900  .56189800
-1.5489800 -.83829500 -1.2610800

Lineare Regressionsergebnisse:

Bildbeschreibung hier eingeben

X2Y.224X1.419.538

X1X1rY0

Die Summe der quadrierten Teilkorrelationen überschritt übrigens R-Quadrat:, .4750^2+(-.2241)^2 = .2758 > .2256was in einer normalen Regressionssituation nicht vorkommen würde (siehe das Venn-Diagramm oben).


PS Nach Beendigung meiner Antwort fand ich diese Antwort (von @gung) mit einem schönen einfachen (schematischen) Diagramm, das mit dem übereinzustimmen scheint, was ich oben durch Vektoren gezeigt habe.


4
+6, das ist wirklich großartig und wird den Leuten helfen, dieses Thema in Zukunft besser zu verstehen. Ich wollte auf meine andere Antwort hinweisen (die meiner Meinung nach mit Ihrer hier übereinstimmt); Es kann hilfreich sein, wenn Leute versuchen möchten, diese Dinge aus einer anderen Perspektive zu visualisieren.
gung - Wiedereinsetzung von Monica

1
Ein paar kleine Punkte: 1 In Bezug auf Ihre Aussage, dass der Suppressor nicht mit Y korreliert, ist b / ce * mit Y korreliert (siehe hier für mehr Informationen), sollte X1 nicht im Modell enthalten sein, sollte X2 korreliert sein w / Y (ob "signifikant" von N abhängt, natürlich). 2 Bezüglich der Frage, ob sich das Vorzeichen auf x1 ändern könnte (b * -> b1), könnte das Vorzeichen auf X1 im reduzierten Modell umgedreht werden, wenn X1 in Abwesenheit des Suppressors & w / große SEs sehr nahe an unkorreliertem w / Y liegt Zufällig allein aufgrund von Stichprobenfehlern, dies sollte jedoch selten und minimal sein.
gung - Wiedereinsetzung von Monica

@gung, danke. (1) Ich sehne mich nach deinen (und anderen) Antworten, die helfen könnten, meine zu verbessern / zu korrigieren. Kommen Sie, wenn Sie Zeit haben, um Gedanken zu posten, die Sie in Ihrem Kommentar skizziert haben. (2) bitte tu diese "Kopfgeld" -Sache nicht: Ich soll nicht groß schreiben; andere Benutzer, "jüngere", könnten es wert sein.
TTNPHNS

Ich glaube nicht, dass meine andere Antwort "besser" ist als deine; in der Tat denke ich, dass Ihr umfassender / allgemeiner ist. Ich denke, dass es einige ähnliche Dinge auf eine etwas andere Art und Weise sagt, so dass es für einige Leser hilfreich sein kann, beide zu lesen. Wenn Sie möchten, könnte ich einen kleinen Beitrag zusammenstellen, der auf meinen obigen Kommentar eingeht, aber ich möchte meine andere Antwort hier nicht einfach kopieren und einfügen, und ich habe dem (oder Ihren) nichts hinzuzufügen. Bezüglich des Kopfgeldes wird es dazu dienen, Aufmerksamkeit / Ansichten auf diesen Thread zu lenken, was gut sein wird, ich konnte es nicht vergeben, aber das scheint albern.
gung - Wiedereinsetzung von Monica

Mir gefallen diese vektorgeometrischen Denkweisen sehr gut. Stört es Sie, wenn ich Sie frage, wie Sie Ihre Pläne gezeichnet haben? War es "mit der Maus" in etwas ähnlichem wie MS Paint oder mit etwas ausgefeilterer Software? Ich habe so etwas schon mal mit der Maus gezeichnet und mich gefragt, ob es einen einfacheren / effizienteren Weg gibt.
Jake Westfall

18

Hier ist eine andere geometrische Ansicht der Unterdrückung, aber anstatt wie in @ ttnphns beschrieben im Beobachtungsraum zu sein, befindet sich dieser im variablen Raum , dem Raum, in dem alltägliche Streudiagramme leben.

y^i=xi+zixzxzx^i=12zixzx^i=12zi

Wir können unsere Regressionsgleichung als Ebene im variablen Raum zeichnen, der so aussieht:

Ebene

Verwirrender Fall

xzyxxyxzzxzyxxx

xxxxx

verwirrend

xzz

xzxxzxzxzxzx^i=12zixzyxΔx+Δz=1+12=1.5

zxz

x

Unterdrückungsfall

zyxxyxzzxxzzxx

Unterdrückung

zxx^i=12zixzyxΔx+Δz=1+12=0.5z

Illustrative Datensätze

Wenn Sie mit diesen Beispielen herumspielen möchten, finden Sie hier einen R-Code zum Generieren von Daten, die den Beispielwerten entsprechen, und zum Ausführen der verschiedenen Regressionen.

library(MASS) # for mvrnorm()
set.seed(7310383)

# confounding case --------------------------------------------------------

mat <- rbind(c(5,1.5,1.5),
             c(1.5,1,.5),
             c(1.5,.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")

cor(dat)
#           y         x         z
# y 1.0000000 0.6708204 0.6708204
# x 0.6708204 1.0000000 0.5000000
# z 0.6708204 0.5000000 1.0000000

lm(y ~ x, data=dat)
# 
# Call:
#   lm(formula = y ~ x, data = dat)
# 
# Coefficients:
#   (Intercept)            x  
#     -1.57e-17     1.50e+00  

lm(y ~ x + z, data=dat)
# 
# Call:
#   lm(formula = y ~ x + z, data = dat)
# 
# Coefficients:
#   (Intercept)            x            z  
#      3.14e-17     1.00e+00     1.00e+00  
# @ttnphns comment: for x, zero-order r = .671 > part r = .387
#                   for z, zero-order r = .671 > part r = .387

lm(x ~ z, data=dat)
# 
# Call:
#   lm(formula = x ~ z, data = dat)
# 
# Coefficients:
#   (Intercept)            z  
#     6.973e-33    5.000e-01 

# suppression case --------------------------------------------------------

mat <- rbind(c(2,.5,.5),
             c(.5,1,-.5),
             c(.5,-.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")

cor(dat)
#           y          x          z
# y 1.0000000  0.3535534  0.3535534
# x 0.3535534  1.0000000 -0.5000000
# z 0.3535534 -0.5000000  1.0000000

lm(y ~ x, data=dat)
# 
# Call:
#   lm(formula = y ~ x, data = dat)
# 
# Coefficients:
#   (Intercept)            x  
#    -4.318e-17    5.000e-01  

lm(y ~ x + z, data=dat)
# 
# Call:
#   lm(formula = y ~ x + z, data = dat)
# 
# Coefficients:
#   (Intercept)            x            z  
#    -3.925e-17    1.000e+00    1.000e+00  
# @ttnphns comment: for x, zero-order r = .354 < part r = .612
#                   for z, zero-order r = .354 < part r = .612

lm(x ~ z, data=dat)
# 
# Call:
#   lm(formula = x ~ z, data = dat)
# 
# Coefficients:
#   (Intercept)            z  
#      1.57e-17    -5.00e-01  

Jake, darf ich Sie bitten, Ihre Antwort mit den tatsächlichen Daten zu versehen? Bitte geben Sie drei Variablenwerte für die beiden Fälle an, die Sie berücksichtigen. Vielen Dank. (Ich meine,
zeichne

xz

@ttnphns Okay, ich habe meine Antwort bearbeitet. Lass mich wissen was du denkst.
Jake Westfall

Bitte schlagen Sie eine konkrete Zufallszahl in Ihrem Code vor. Ich möchte Ihre Ergebnisse hier online genau wiedergeben: pbil.univ-lyon1.fr/Rweb (da ich kein R auf meinem Computer habe - ich bin kein R-Benutzer).
TTNPHNS

@ttnphns Sie benötigen keinen Startwert, um die Beispieldatensätze zu reproduzieren. Jeder mit dem obigen Code generierte Datensatz weist immer genau die oben gezeigten Korrelations- / Regressionskoeffizienten und Varianzen auf, obwohl die jeweiligen Datenwerte variieren können (ohne Konsequenz). Für diejenigen, die nicht installieren / verwenden möchten R, habe ich zwei Datensätze hochgeladen, die mit dem obigen Code erstellt wurden und die Sie mit dem Statistikpaket Ihrer Wahl herunterladen und analysieren können. Die Links sind: (1) psych.colorado.edu/~westfaja/confounding.csv (2) psych.colorado.edu/~westfaja/suppression.csv . Ich werde wohl auch einen Samen hinzufügen.
Jake Westfall

0

So denke ich über den Suppressor-Effekt nach. Aber bitte lassen Sie mich wissen, wenn ich falsch liege.

Hier ist ein Beispiel für ein binäres Ergebnis (Klassifizierung, logistische Regression). Wir können sehen, dass es keinen signifikanten Unterschied in X1 gibt, es gibt keinen Unterschied in X2, aber setzen Sie X1 und X2 zusammen (dh korrigieren Sie x1 für x2 oder umgekehrt) und Stichproben können fast perfekt klassifiziert werden, und daher sind die Variablen jetzt hoch signifikant .

Bildbeschreibung hier eingeben


Können Sie die Ihrem Bild entsprechenden Daten in Ihrer Antwort ausdrucken?
TTNPHNS

Können Sie die Zahlen vore geben?
Fossekall
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.