Wie Sie richtig ausgeführt haben, ist im Fall einer einzelnen kategorialen Variablen (mit möglicherweise mehr als 2 Ebenen) tatsächlich der Mittelwert der Referenz, und die andere ist der Unterschied zwischen Mittelwert des Niveaus der Kategorie und des Mittelwerts der Referenz. ββ^0β^
Wenn wir Ihr Beispiel ein wenig erweitern, um der Rassenkategorie eine dritte Stufe hinzuzufügen (sagen wir asiatisch ) und Weiß als Referenz wählen, dann hätten Sie:
- β^0= x¯Wh i t e
- β^B l a c k= x¯B l a c k- x¯Wh i t e
- β^A s i a n= x¯A s i a n- x¯Wh i t e
In diesem Fall ist die Interpretation von einfach und es ist einfach, den Mittelwert für jedes Level der Kategorie zu finden. Beispielsweise:β^
- x¯A s i a n= β^A s i a n+ β^0
Leider ist bei mehreren kategorialen Variablen die korrekte Interpretation des Abschnitts nicht mehr so klar (siehe Hinweis am Ende). Wenn es n Kategorien mit jeweils mehreren Ebenen und einer Bezugsebene gibt (z. B. Weiß und Männlich in Ihrem Beispiel), lautet die allgemeine Form für den Achsenabschnitt:
β^0= ∑nich = 1x¯r e fe r e n c e, i- ( n - 1 ) x¯,
wobei
x¯re fe r e n c e , i ist der Mittelwert des Referenzniveaus der i-ten kategorialen Variablen,
x¯ ist der Mittelwert des gesamten Datensatzes
Das andere ist dasselbe wie bei einer einzelnen Kategorie: es ist die Differenz zwischen dem Mittelwert dieses Niveaus der Kategorie und dem Mittelwert des Referenzniveaus derselben Kategorie.β^
Wenn wir zu Ihrem Beispiel zurückkehren, erhalten wir:
- β^0=x¯Wh i t e+x¯Ma l e- x¯
- β^B l a c k= x¯B l a c k- x¯Wh i t e
- β^A s i a n= x¯A s i a n- x¯Wh i t e
- β^Fe m a l e= x¯Fe m a l e- x¯Ma l e
Sie werden feststellen, dass der Mittelwert der Kreuzkategorien (z. B. weiße Männer ) in keiner der . Tatsächlich können Sie diese Mittelwerte nicht genau aus den Ergebnissen dieser Art von Regression berechnen .β^
Der Grund dafür ist, dass die Anzahl der Prädiktorvariablen (dh ) kleiner ist als die Anzahl der Kreuzkategorien (solange Sie mehr als eine Kategorie haben), sodass eine perfekte Anpassung nicht immer möglich ist. Wenn wir zu Ihrem Beispiel zurückkehren, ist die Anzahl der Prädiktoren 4 (dh und ), während die Anzahl der Kreuzkategorien 6 beträgt.β^β^0, β ^B l a c k, β ^A s i a nβ^Fe m a l e
Numerisches Beispiel
Lassen Sie mich von @Gung ein numerisches Beispiel ausleihen:
d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
y =c(0, 3, 7, 8, 9, 10))
d
# Sex Race y
# 1 Male White 0
# 2 Female White 3
# 3 Male Black 7
# 4 Female Black 8
# 5 Male Asian 9
# 6 Female Asian 10
In diesem Fall werden für die Berechnung des Durchschnittswerte verwendet :β^
aggregate(y~1, d, mean)
# y
# 1 6.166667
aggregate(y~Sex, d, mean)
# Sex y
# 1 Male 5.333333
# 2 Female 7.000000
aggregate(y~Race, d, mean)
# Race y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5
Wir können diese Zahlen mit den Ergebnissen der Regression vergleichen:
summary(lm(y~Sex+Race, d))
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 0.6667 0.6667 1.000 0.4226
# SexFemale 1.6667 0.6667 2.500 0.1296
# RaceBlack 6.0000 0.8165 7.348 0.0180
# RaceAsian 8.0000 0.8165 9.798 0.0103
Wie Sie sehen können, die aus der Regression geschätzten Werte alle mit den oben angegebenen Formeln überein. Zum Beispiel ist gegeben durch:
Welche gibt:β^β^0
β^0= x¯Wh i t e+ x¯Ma l e- x¯
1.5 + 5.333333 - 6.166667
# 0.66666
Hinweis zur Wahl des Kontrasts
Als letzte Anmerkung zu diesem Thema beziehen sich alle oben diskutierten Ergebnisse auf kategoriale Regressionen unter Verwendung der Kontrastbehandlung (die Standardkontrastart in R). Es gibt verschiedene Arten von Kontrast, die verwendet werden könnten (insbesondere Helmert und Summe) und die die Interpretation der verschiedenen . Dies würde jedoch die endgültigen Vorhersagen aus den Regressionen nicht ändern (z. B. ist die Vorhersage für weiße Männer immer dieselbe, unabhängig davon, welche Art von Kontrast Sie verwenden).β^
Mein persönlicher Favorit ist die Kontrastsumme, da ich der Meinung bin, dass sich die Interpretation von besser verallgemeinern lässt, wenn es mehrere Kategorien gibt. Für diese Art von Kontrast gibt es keinen Referenzpegel, oder vielmehr ist die Referenz der Mittelwert der gesamten Stichprobe, und Sie haben die folgenden :β^c o n t r . s u mβ^c o n t r . s u m
- β^c o n t r . su m0=x¯
- β^c o n t r . s umich=x¯ich-x¯
Wenn wir zum vorherigen Beispiel zurückkehren, hätten Sie:
- β^c o n t r . s um0=x¯
- β^c o n t r . s u mWh i t e=x¯Wh i t e- x¯
- β^c o n t r . s u mB l a c k= x¯B l a c k- x¯
- β^c o n t r . s u mA s i a n= x¯A s i a n- x¯
- β^c o n t r . s u mMa l e= x¯Ma l e- x¯
- β^c o n t r . s u mFe m a l e= x¯Fe m a l e- x¯
Sie werden feststellen, dass die Werte für nicht mehr 0 sind , da es sich bei Weiß und Männlich nicht mehr um Referenzwerte handelt. Die Tatsache, dass dies 0 ist, ist spezifisch für die Kontrastbehandlung.β^c o n t r . s u m