@NickCox hat gute Arbeit geleistet und über die Anzeige von Residuen gesprochen, wenn Sie zwei Gruppen haben. Lassen Sie mich einige der expliziten Fragen und impliziten Annahmen ansprechen, die hinter diesem Thread stehen.
Die Frage lautet: "Wie testen Sie Annahmen einer linearen Regression wie Homoskedastizität, wenn eine unabhängige Variable binär ist?" Sie haben ein multiples Regressionsmodell. Ein (Mehrfach-) Regressionsmodell geht davon aus, dass es nur einen Fehlerterm gibt, der überall konstant ist. Es ist nicht besonders aussagekräftig (und Sie müssen es nicht), für jeden Prädiktor einzeln auf Heteroskedastizität zu prüfen. Aus diesem Grund diagnostizieren wir bei einem multiplen Regressionsmodell die Heteroskedastizität anhand von Darstellungen der Residuen gegen die vorhergesagten Werte. Das wahrscheinlich hilfreichste Diagramm für diesen Zweck ist ein Diagramm für die Skalierungsposition (auch als "Spread-Level" bezeichnet), bei dem es sich um ein Diagramm der Quadratwurzel des absoluten Werts der Residuen gegenüber den vorhergesagten Werten handelt. Beispiele sehen,Was bedeutet "konstante Varianz" in einem linearen Regressionsmodell?
Ebenso müssen Sie nicht die Residuen für jeden Prädiktor auf Normalität überprüfen. (Ich weiß ehrlich gesagt nicht einmal, wie das funktionieren würde.)
Was Sie können mit Plots der Residuen gegen einzelne Prädiktoren zu tun ist , überprüfen, ob die funktionelle Form richtig angegeben ist. Wenn die Residuen beispielsweise eine Parabel bilden, weisen die Daten, die Sie übersehen haben, eine gewisse Krümmung auf. Um ein Beispiel zu sehen, sehen Sie sich das zweite Diagramm in der Antwort von @ Glen_b hier an: Überprüfen der Modellqualität in linearer Regression . Diese Probleme treten jedoch bei einem binären Prädiktor nicht auf.
Wenn Sie nur kategoriale Prädiktoren haben, können Sie auf Heteroskedastizität testen. Sie verwenden nur den Levene-Test. Ich diskutiere es hier: Warum Levene's Test der Varianzgleichheit statt des F-Verhältnisses? In R verwenden Sie ? LeveneTest aus dem Autopaket .
Bearbeiten: Um den Punkt besser zu veranschaulichen, dass das Betrachten eines Diagramms der Residuen gegen eine einzelne Prädiktorvariable nicht hilfreich ist, wenn Sie ein Modell mit mehreren Regressionen haben, betrachten Sie dieses Beispiel:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Sie können dem Datengenerierungsprozess entnehmen, dass keine Heteroskedastizität vorliegt. Lassen Sie uns die relevanten Diagramme des Modells untersuchen, um festzustellen, ob sie eine problematische Heteroskedastizität implizieren:
Nein, nichts, worüber man sich Sorgen machen müsste. Schauen wir uns jedoch die Darstellung der Residuen gegen die einzelne binäre Prädiktorvariable an, um festzustellen, ob dort Heteroskedastizität vorliegt:
Oh, es sieht so aus, als ob es ein Problem geben könnte. Wir wissen aus dem Datengenerierungsprozess, dass es keine Heteroskedastizität gibt, und die primären Diagramme, um dies zu untersuchen, zeigten auch keine. Was passiert also hier? Vielleicht helfen diese Handlungen:
x1
und x2
sind nicht unabhängig voneinander. Darüber hinaus sind die Beobachtungen x2 = 1
an den Extremen. Sie haben mehr Hebelkraft, so dass ihre Residuen natürlich kleiner sind. Dennoch gibt es keine Heteroskedastizität.
Die Nachricht zum Mitnehmen: Am besten diagnostizieren Sie die Heteroskedastizität nur anhand der entsprechenden Diagramme (Residuen vs. angepasste Diagramme und Diagramme auf Streuungsebene).