Eigenschaften logistischer Regressionen

Wir arbeiten mit einigen logistischen Regressionen und haben festgestellt, dass die durchschnittliche geschätzte Wahrscheinlichkeit immer dem Anteil derjenigen in der Stichprobe entspricht. Das heißt, der Durchschnitt der angepassten Werte entspricht dem Durchschnitt der Stichprobe.

Kann mir jemand den Grund erklären oder eine Referenz geben, wo ich diese Demonstration finden kann?

— Gabi Foix
quelle

Der Grund dafür ist, dass die logistische Regression versucht, genau das zu erreichen: Modellierung der Datenverteilung, einschließlich der vorherigen Wahrscheinlichkeiten ("Durchschnitte"). Ist dieses Verhalten unerwünscht?

— Bayerj

@bayer Die Nichtlinearität der Verknüpfungsfunktion zeigt an, dass dieses Phänomen tiefer liegt als Ihre Charakterisierung. Hier gibt es wirklich etwas zu demonstrieren.

— Whuber

Diese Eigenschaft wird manchmal als "Calibration-in-the-Large" bezeichnet, wenn die logistische Regression zur Abschätzung des Risikos verwendet wird.

— 26.

Das Verhalten, das Sie beobachten, ist der "typische" Fall bei der logistischen Regression, aber nicht immer wahr. Es gilt auch in viel allgemeinerer Form (siehe unten). Es ist die Folge des Zusammentreffens von drei verschiedenen Tatsachen.

Die Wahl der Modellierung der Log-Odds als lineare Funktion der Prädiktoren,
Die Verwendung der maximalen Wahrscheinlichkeit, um Schätzungen der Koeffizienten im logistischen Regressionsmodell zu erhalten, und
Die Einbeziehung eines Intercept-Terms in das Modell.

Wenn eine der oben genannten Aussagen nicht vorliegt, stimmen die geschätzten Durchschnittswahrscheinlichkeiten im Allgemeinen nicht mit dem Anteil derjenigen in der Stichprobe überein.

(Fast) jede statistische Software verwendet jedoch eine Maximum-Likelihood-Schätzung für solche Modelle, sodass in der Praxis die Elemente 1 und 2 im Wesentlichen immer vorhanden sind und Element 3 normalerweise vorhanden ist, außer in besonderen Fällen.

Ein paar Details

Im typischen logistischen Regressionsgerüst beobachten wir das Ergebnis unabhängiger Binomialversuche mit der Wahrscheinlichkeit . Lassen Sie die beobachteten Reaktionen sein. Dann ist die Gesamtwahrscheinlichkeit $p_i$ $y_i$ Und so die Log-Likelihood ist

L = \prod_{i = 1}^{n} p_{i}^{y_{i}} (1 - p_{i})^{1 - y_{i}} = \prod_{i = 1}^{n} \exp (y_{i} \log (p_{i} / (1 - p_{i})) + \log (1 - p_{i})),

$\mathcal L = \prod_{i=1}^n p_i^{y_i} (1-p_i)^{1 - y_i} = \prod_{i=1}^n \exp( y_i \log(p_i/(1-p_i)) + \log(1-p_i)) \>,$

ℓ = \sum_{i = 1}^{n} y_{i} \log (p_{i} / (1 - p_{i})) + \sum_{i = 1}^{n} \log (1 - p_{i}) .

$\ell = \sum_{i=1}^n y_i \log(p_i / (1-p_i)) + \sum_{i=1}^n \log(1-p_i) \> .$

Wir haben nun einen Vektor von Prädiktoren für jede Beobachtung und aus dem obigen Fakt 1 geht das logistische Regressionsmodell für einige Unbekannte von aus Vektor der Parameter . Hinweis : Wenn Sie dies neu ordnen, erhalten Sie . $\newcommand{\x}{\mathbf x}\x_i$

\log \frac{p_{i}}{1 - p_{i}} = β^{T} x_{i},

$\log \frac{p_i}{1-p_i} = \beta^T \x_i \>,$

β

$\beta$

p_{i} = 1 / (1 + e^{- β^{T} x_{i}})

$p_i = 1/(1+e^{-\beta^T \x_i})$

Wenn die maximale Wahrscheinlichkeit für die Anpassung an das Modell (Fakt 2) verwendet wird, ergibt sich ein Satz zu lösender Gleichungen aus der Berücksichtigung von . Beachten Sie, dass $\partial \ell / \partial \beta = 0$

\frac{\partial ℓ}{\partial β} = \sum_{i} y_{i} x_{i} - \sum_{i} \frac{x_{i}}{1 + \exp (- β^{T} x_{i})} = \sum_{i} y_{i} x_{i} - \sum_{i} p_{i} x_{i},

$\frac{\partial \ell}{\partial \beta} = \sum_i y_i \x_i - \sum_i \frac{\x_i}{1+\exp(-\beta^T \x_i)} = \sum_i y_i \x_i - \sum_i p_i \x_i \>,$

\sum_{ich} y_{ich} x_{ich} = \sum_{ich} {\hat{p}}_{ich} x_{ich},

$\sum_i y_i \x_i = \sum_i \hat{p}_i \x_i \>,$

{\hat{p}}_{i} = (1 + \exp (- {\hat{β}}^{T} x_{i}))^{- 1}

$\hat{p}_i = (1+\exp(-\hat{\beta}^T \x_i))^{-1}$

$\x_i$ $j$ $i$ $\sum_i y_i x_{ij} = \sum_i y_i = \sum_i \hat{p}_i$

Eine Simulation

$R$

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Allgemeiner Fall : Wie oben erwähnt, ist die Eigenschaft, dass die mittlere Antwort gleich dem vorhergesagten Durchschnittswert ist, für die Klasse verallgemeinerter linearer Modelle, die mit maximaler Wahrscheinlichkeit unter Verwendung der kanonischen Verknüpfungsfunktion und unter Einbeziehung eines Abschnitts in die Gleichung passen, viel allgemeiner Modell.

Verweise

Einige gute Referenzen für die zugehörige Theorie sind die folgenden.

A. Agresti (2002), Categorical Data Analysis , 2. Aufl., Wiley.
P. McCullagh und JA Nelder (1989), Generalized Linear Models , 2. Aufl., Chapman & Hall. (Text von Originalautoren der allgemeinen Methoden.)

— Kardinal
quelle

+1 Diese Demonstration (spezifisch für das logistische Regressionsmodell, ohne zu versuchen, auf alle GLMs zu verallgemeinern) wird auch in Maddala (1983), Limited Dependent and Qualitative Variables in Econometrics , S. 25-26, gegeben.

— StasK

@StasK: Danke für den zusätzlichen Hinweis, den ich nicht kenne. Prost.

— Kardinal

@ Cardinal: Ich erinnere mich nicht, dass Agresti darüber gesprochen hat. Wird es in McCullagh und Nelder diskutiert?

— 26.