Das Verhalten, das Sie beobachten, ist der "typische" Fall bei der logistischen Regression, aber nicht immer wahr. Es gilt auch in viel allgemeinerer Form (siehe unten). Es ist die Folge des Zusammentreffens von drei verschiedenen Tatsachen.
- Die Wahl der Modellierung der Log-Odds als lineare Funktion der Prädiktoren,
- Die Verwendung der maximalen Wahrscheinlichkeit, um Schätzungen der Koeffizienten im logistischen Regressionsmodell zu erhalten, und
- Die Einbeziehung eines Intercept-Terms in das Modell.
Wenn eine der oben genannten Aussagen nicht vorliegt, stimmen die geschätzten Durchschnittswahrscheinlichkeiten im Allgemeinen nicht mit dem Anteil derjenigen in der Stichprobe überein.
(Fast) jede statistische Software verwendet jedoch eine Maximum-Likelihood-Schätzung für solche Modelle, sodass in der Praxis die Elemente 1 und 2 im Wesentlichen immer vorhanden sind und Element 3 normalerweise vorhanden ist, außer in besonderen Fällen.
Ein paar Details
Im typischen logistischen Regressionsgerüst beobachten wir das Ergebnis unabhängiger Binomialversuche mit der Wahrscheinlichkeit . Lassen Sie y i die beobachteten Reaktionen sein. Dann ist die Gesamtwahrscheinlichkeit
L = n Π i = 1 p y i i ( 1 - p i ) 1 - y i = n Π i = 1 exp ( y i log ( P i / ( 1 - P ipichyich
Und so die Log-Likelihood ist
ℓ = n Σ i = 1 y i log ( P i / ( 1 - p i ) ) + n Σ i = 1 log ( 1 - P i )
L = ∏i = 1npyichich( 1 - pich)1 - yich= ∏i = 1nexp( yichLog( pich/ (1- pich) ) + log( 1 - pich) ),
ℓ = ∑i = 1nyichLog( pich/ (1- pich) ) + ∑i = 1nLog( 1 - pich).
Wir haben nun einen Vektor von Prädiktoren für jede Beobachtung und aus dem obigen Fakt 1 geht das logistische Regressionsmodell
für einige Unbekannte von aus Vektor der Parameter . Hinweis : Wenn Sie dies neu ordnen, erhalten Sie .xichβ p i = 1 / ( 1 + e - β T x i )
Logpich1 - pich= βTxich,
βpich= 1 / ( 1 + e- βTxich)
Wenn die maximale Wahrscheinlichkeit für die Anpassung an das Modell (Fakt 2) verwendet wird, ergibt sich ein Satz zu lösender Gleichungen aus der Berücksichtigung von . Beachten Sie, dass
∂ℓ / ∂β= 0
∂ℓ∂β= ∑ichyichxich- ∑ichxich1 + exp( - βTxich)= ∑ichyichxich- ∑ichpichxich,
∑ichyichxich= ∑ichp^ichxich,
p^ich= ( 1 + exp( - β^Txich) )- 1
xichjich∑ichyichxich j= ∑ichyich= ∑ichp^ich
Eine Simulation
R
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Allgemeiner Fall : Wie oben erwähnt, ist die Eigenschaft, dass die mittlere Antwort gleich dem vorhergesagten Durchschnittswert ist, für die Klasse verallgemeinerter linearer Modelle, die mit maximaler Wahrscheinlichkeit unter Verwendung der kanonischen Verknüpfungsfunktion und unter Einbeziehung eines Abschnitts in die Gleichung passen, viel allgemeiner Modell.
Verweise
Einige gute Referenzen für die zugehörige Theorie sind die folgenden.
- A. Agresti (2002), Categorical Data Analysis , 2. Aufl., Wiley.
- P. McCullagh und JA Nelder (1989), Generalized Linear Models , 2. Aufl., Chapman & Hall. (Text von Originalautoren der allgemeinen Methoden.)