Ich habe Daten aus einem Umfrageexperiment, bei dem die Befragten zufällig einer von vier Gruppen zugeordnet wurden:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Während sich die drei Behandlungsgruppen in Bezug auf den angewendeten Stimulus geringfügig unterscheiden, ist der Hauptunterschied, den ich interessiere, zwischen der Kontroll- und Behandlungsgruppe. Also habe ich eine Dummy-Variable definiert Control
:
> summary(df$Control)
TRUE FALSE
59 191
In der Umfrage wurden die Befragten (unter anderem) gebeten, auszuwählen, welche von zwei Dingen sie bevorzugten:
> summary(df$Prefer)
A B NA's
152 93 5
Nachdem die Befragten einen von ihrer Behandlungsgruppe bestimmten Reiz erhalten hatten (und keinen, wenn sie in der Kontrollgruppe waren), wurden sie gebeten, zwischen denselben beiden Dingen zu wählen:
> summary(df$Choice)
A B
149 101
Ich möchte wissen, ob die Zugehörigkeit zu einer der drei Behandlungsgruppen einen Einfluss auf die Auswahl hatte, die die Befragten in dieser letzten Frage getroffen haben. Meine Hypothese ist, dass die Befragten, die eine Behandlung erhalten haben, mit größerer Wahrscheinlichkeit wählen A
als B
.
Da ich mit kategorialen Daten arbeite, habe ich mich für eine Logit-Regression entschieden. Da die Befragten nach dem Zufallsprinzip ausgewählt wurden, habe ich den Eindruck, dass ich nicht unbedingt auf andere Variablen (z. B. demografische Merkmale) Einfluss nehmen muss. Daher habe ich diese für diese Frage weggelassen. Mein erstes Modell war einfach das Folgende:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Ich habe den Eindruck, dass der Abschnitt, der statistisch signifikant ist, keine interpretierbare Bedeutung hat. Ich dachte vielleicht, dass ich einen Interaktionsbegriff wie folgt einfügen sollte:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Nun hat der Befragtenstatus wie in einer Behandlungsgruppe den erwarteten Effekt. War dies ein gültiger Satz von Schritten? Wie kann ich den Interaktionsbegriff interpretieren ControlFALSE:PreferA
? Sind die anderen Koeffizienten noch die Log-Quoten?