Ist in einem GLM die Log-Wahrscheinlichkeit des gesättigten Modells immer Null?

Als Teil der Ausgabe eines verallgemeinerten linearen Modells werden die Null- und Restabweichung verwendet, um das Modell zu bewerten. Die Formeln für diese Größen werden häufig als Log-Wahrscheinlichkeit des gesättigten Modells ausgedrückt. Beispiel: /stats//a/113022/22199 , Logistic Regression: So erhalten Sie ein gesättigtes Modell

Das gesättigte Modell ist, soweit ich es verstehe, das Modell, das perfekt zur beobachteten Reaktion passt. Daher wird die log-Wahrscheinlichkeit des gesättigten Modells an den meisten Stellen, die ich gesehen habe, immer mit Null angegeben.

Die Art und Weise, wie die Formel für die Abweichung angegeben wird, legt jedoch nahe, dass diese Größe manchmal nicht Null ist. (Als ob es immer Null wäre, warum sollte man sich die Mühe machen, es einzuschließen?)

In welchen Fällen kann es nicht Null sein? Wenn es niemals ungleich Null ist, warum sollte es dann in die Formel für die Abweichung aufgenommen werden?

— Alex
quelle

Antworten:

Wenn Sie Log-Likelihood wirklich gemeint haben, lautet die Antwort: Es ist nicht immer Null.

Betrachten Sie zum Beispiel Poisson-Daten: $y_i \sim \text{Poisson}(\mu_i), i = 1, \ldots, n$ . Das Log-Likelihood für $Y = (y_1, \ldots, y_n)$ ist gegeben durch:

\begin{matrix} (*) & ℓ (μ; Y.) = - \sum_{ich = 1}^{n} μ_{ich} + \sum_{ich = 1}^{n} y_{ich} Log μ_{ich} - \sum_{ich = 1}^{n} Log (y_{ich}!) . \end{matrix}

$\ell(\mu; Y) = -\sum_{i = 1}^n \mu_i + \sum_{i = 1}^n y_i \log \mu_i - \sum_{i = 1}^n \log(y_i!). \tag{$*$}$

Unterscheide $\ell(\mu; Y)$ in $(*)$ in Bezug auf $\mu_i$ und setze es auf $0$ (so erhalten wir die MLE für das gesättigte Modell):

- 1 + \frac{y_{ich}}{μ_{ich}} = 0.

$-1 + \frac{y_i}{\mu_i} = 0.$ Lösung dieses für

μ_{i}

$\mu_i$ zu erhalten

,Substitution

wieder in

für

gebedass das Log-Likelihood des gesättigte Modells ist:

{\hat{μ}}_{i} = y_{i}

$\hat{\mu}_i = y_i$

{\hat{μ}}_{i}

$\hat{\mu}_i$

(*)

$(*)$

μ_{i}

$\mu_i$

ℓ (\hat{μ}; Y.) = \sum_{ich = 1}^{n} y_{ich} (Log y_{ich} - 1) - \sum_{ich = 1}^{n} Log (y_{ich}!) \neq 0

$\ell(\hat{\mu}; Y) = \sum_{i = 1}^n y_i(\log y_i - 1) -\sum_{i = 1}^n \log(y_i!) \neq 0$ es sei denn

y_{i}

$y_i$ ganz besondere Werte annehmen.

Auf der Hilfeseite der RFunktion glmwird deviancedieses Problem im Dokument unter dem Element folgendermaßen erläutert:

deviance Bis zu einer Konstanten, minus der doppelten maximalen Log-Wahrscheinlichkeit. Wo sinnvoll, wird die Konstante so gewählt, dass ein gesättigtes Modell die Abweichung Null hat.

Beachten Sie, dass erwähnt wurde, dass die Abweichung anstelle der logarithmischen Wahrscheinlichkeit des gesättigten Modells Null ist.

Wahrscheinlich wollten Sie wirklich bestätigen, dass "die Abweichung des gesättigten Modells immer als Null angegeben wird", was seit der Abweichung per Definition zutrifft (siehe Abschnitt 4.5.1 der Kategoriellen Datenanalyse (2. Auflage) von Alan Agresti) ist die Wahrscheinlichkeitsverhältnisstatistik eines bestimmten GLM zum gesättigten Modell. Das constantin der R-Dokumentation Gesagte ist tatsächlich doppelt so hoch wie die maximale Log-Wahrscheinlichkeit des gesättigten Modells.

In Bezug auf Ihre Aussage "Die Art und Weise, wie die Formel für die Abweichung angegeben wird, legt jedoch nahe, dass diese Menge manchmal nicht Null ist.", Ist dies wahrscheinlich auf den Missbrauch der Verwendung des Begriffs Abweichung zurückzuführen . Beispielsweise wird in R die Wahrscheinlichkeitsverhältnisstatistik des Vergleichs zweier beliebiger (verschachtelter) Modelle und auch als Abweichung bezeichnet, die genauer als die Differenz zwischen der Abweichung von und der Abweichung von , wenn wir uns genau an die Definition in Agrestis Buch halten. $M_1$ $M_2$ $M_1$ $M_2$

Fazit

Die log-Wahrscheinlichkeit des gesättigten Modells ist im Allgemeinen ungleich Null.
Die Abweichung (in der ursprünglichen Definition) des gesättigten Modells ist Null.
Die Abweichungsausgabe von Software (wie R) ist im Allgemeinen ungleich Null, da sie tatsächlich etwas anderes bedeutet (den Unterschied zwischen Abweichungen).

Das Folgende ist die Herleitung für den allgemeinen Fall der Exponentialfamilie und ein anderes konkretes Beispiel. Angenommen, die Daten stammen aus der Exponentialfamilie (siehe Modern Applied Statistics mit S , Kapitel ): $7$

\begin{matrix} (1) & f (y_{ich}; θ_{ich}, φ) = \exp [{EIN}_{ich} (y_{ich} θ_{ich} - γ (θ_{ich})) / φ + τ (y_{ich}, φ / {EIN}_{ich})] . \end{matrix}

$f(y_i; \theta_i, \varphi) = \exp[A_i(y_i\theta_i - \gamma(\theta_i))/\varphi + \tau(y_i, \varphi/A_i)]. \tag{1}$ wobei

bekannte frühere Gewichte und

Dispersions- / Skalenparameter sind (für viele Fälle wie Binomial und Poisson ist dieser Parameter bekannt, während für andere Fälle wie Normal und Gamma dieser Parameter unbekannt ist). Dann wird das Log-Likelihood ist gegeben durch:

A_{i}

$A_i$

φ

$\varphi$

Wie im Poisson-Beispiel können die Parameter des gesättigten Modells durch Lösen der folgendenBewertungsfunktiongeschätzt werden:

ℓ (θ, φ; Y.) = \sum_{ich = 1}^{n} {EIN}_{ich} (y_{ich} θ_{ich} - γ (θ_{ich})) / φ + \sum_{ich = 1}^{n} τ (y_{ich}, φ / {EIN}_{ich}) .

$\ell(\theta, \varphi; Y) = \sum_{i = 1}^n A_i(y_i \theta_i - \gamma(\theta_i))/\varphi + \sum_{i = 1}^n \tau(y_i, \varphi/A_i).$

0 = U (θ_{ich}) = \frac{\partial ℓ (θ, φ; Y.)}{\partial θ_{ich}} = \frac{{EIN}_{ich} (y_{ich} - γ^{'} (θ_{ich}))}{φ}

$0 = U(\theta_i) = \frac{\partial \ell(\theta, \varphi; Y)}{\partial \theta_i} = \frac{A_i(y_i - \gamma'(\theta_i))}{\varphi}$

$\hat{\theta}_i$

\begin{matrix} (* *) & ℓ (\hat{θ}, φ; Y) = \sum_{i = 1}^{n} A_{i} (y_{i} {\hat{θ}}_{i} - γ ({\hat{θ}}_{i})) / φ + \sum_{i = 1}^{n} τ (y_{i}, φ / A_{i}) . \end{matrix}

$\ell(\hat{\theta}, \varphi; Y) = \sum_{i = 1}^n A_i(y_i \hat{\theta}_i - \gamma(\hat{\theta}_i))/\varphi + \sum_{i = 1}^n \tau(y_i, \varphi/A_i). \tag{$**$}$

$(**)$ $\Gamma(\alpha, \beta)$

f (y; α, β) = \frac{β^{α}}{Γ (α)} e^{- β y} y^{α - 1}, y > 0, α > 0, β > 0,

$f(y; \alpha, \beta) = \frac{\beta^\alpha}{\Gamma(\alpha)}e^{-\beta y}y^{\alpha - 1}, \quad y > 0, \alpha > 0, \beta > 0,$

f

$f$

(1)

$(1)$

φ = \frac{1}{α}, θ = - \frac{β}{α},

$\varphi = \frac{1}{\alpha},\, \theta = -\frac{\beta}{\alpha},$

f

$f$

f (y; θ, φ) = \exp [\frac{θ y - (- Log (- θ))}{φ} + τ (y, φ)],

$f(y; \theta, \varphi) = \exp\left[\frac{\theta y - (-\log(-\theta))}{\varphi}+ \tau(y, \varphi)\right],$

τ (y, φ) = - \frac{\log φ}{φ} + (\frac{1}{φ} - 1) \log y - \log Γ (φ^{- 1}) .

$\tau(y, \varphi) = -\frac{\log \varphi}{\varphi} + \left(\frac{1}{\varphi} - 1\right)\log y - \log\Gamma(\varphi^{-1}).$

{\hat{θ}}_{i} = - \frac{1}{y_{i}}

$\hat{\theta}_i = -\frac{1}{y_i}$

\sum_{i = 1}^{n} \frac{1}{φ} [{\hat{θ}}_{i} y_{i} - (- \log (- {\hat{θ}}_{i}))] = \sum_{i = 1}^{n} \frac{1}{φ} [- 1 - \log (y_{i})] \neq 0,

$\sum_{i = 1}^n \frac{1}{\varphi}[\hat{\theta}_iy_i - (-\log(-\hat{\theta}_i))] = \sum_{i = 1}^n \frac{1}{\varphi}[-1 - \log(y_i)] \neq 0,$

y_{i}

$y_i$

— Zhanxiong
quelle

Ist die Log-Wahrscheinlichkeit nur dann Null, wenn das Modell jedem der möglichen Ergebnisse eine Wahrscheinlichkeit von 100% zuordnen kann?

— Alex

0

$0$

τ

$\tau$

0

$0$

Ihre Ableitung ist sehr gut, aber der formale Beweis ist im Moment etwas über meinem Kopf. Vielen Dank für Ihr Beispiel mit dem Poisson-Modell. Was ich aus diesem Beispiel herausgenommen habe, ist, dass das Poisson-Modell dem beobachteten Ergebnis keine 100-prozentige Wahrscheinlichkeit zuweisen kann, wenn ein Wert für den Poisson-Mittelwert vorliegt, sodass die Wahrscheinlichkeit nicht Null sein kann.

— Alex

100 %

$100\%$

y_{1}, \dots, y_{n}

$y_1, \ldots, y_n$

Y

$Y$

P (Y = y_{1}) + P (Y = y_{2}) + \dots + P (Y = y_{n}) < 1

$P(Y= y_1) + P(Y = y_2) + \cdots + P(Y = y_n) < 1$

Y

$Y$

P (Y = y_{i}) < 1

$P(Y = y_i) < 1$

i

$i$

$0$

\begin{matrix} (1) & L (y; X, β) = \prod_{ich = 1}^{n} f (y_{ich}; x_{ich}, β) = \prod_{ich = 1}^{n} π_{ich}^{y_{ich}} (1 - π_{ich})^{1 - y_{ich}} = \prod_{ich = 1}^{n} {(\frac{π_{ich}}{1 - π_{ich}})}^{y_{ich}} (1 - π_{ich}) \end{matrix}

$L(\mathbf{y} ; \mathbf{X}, \boldsymbol{\beta}) = \prod_{i=1}^n f(y_i ; \mathbf{x}_i, \boldsymbol{\beta}) = \prod_{i=1}^n \pi_i^{y_i}(1-\pi_i)^{1-y_i} = \prod_{i=1}^n\left( \frac{\pi_i}{1-\pi_i}\right)^{y_i} (1 - \pi_i) \tag{1}$ wo

π_{i} = invlogit (x_{i}^{⊺} β)

$\pi_i = \text{invlogit}(\mathbf{x}_i^\intercal \boldsymbol{\beta} )$ .

Die Log-Wahrscheinlichkeit ist

\begin{aligned} Log L (y; X, β) & = \sum_{ich = 1}^{n} y_{ich} Log (\frac{π_{ich}}{1 - π_{ich}}) + Log (1 - π_{ich}) \\ = \sum_{ich = 1}^{n} y_{ich} logit (π_{ich}) + Log (1 - π_{ich}) \\ = \sum_{ich = 1}^{n} y_{ich} x_{ich}^{⊺} β + Log (1 - Invlogit (x_{ich}^{⊺} β)) \\ = \sum_{ich = 1}^{n} y_{ich} x_{ich}^{⊺} β + Log (Invlogit (- x_{ich}^{⊺} β)) \\ = \sum_{ich = 1}^{n} y_{ich} x_{ich}^{⊺} β - Log (1 + \exp [x_{ich}^{⊺} β])) \end{aligned}

$\begin{align*} \log L(\mathbf{y} ; \mathbf{X}, \boldsymbol{\beta}) &= \sum_{i=1}^n y_i \log \left( \frac{\pi_i}{1-\pi_i}\right) + \log(1-\pi_i) \\ &= \sum_{i=1}^n y_i \text{logit} \left( \pi_i \right) + \log(1-\pi_i) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} + \log( 1 - \text{invlogit}(\mathbf{x}_i^\intercal \boldsymbol{\beta} )) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} + \log( \text{invlogit}( - \mathbf{x}_i^\intercal \boldsymbol{\beta} )) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} - \log( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] )) \end{align*}$

Wenn Sie die Ableitungen für alle Koeffizienten nehmen, erhalten Sie

\begin{matrix} (2) & \nabla ℓ (β) = \sum_{ich = 1}^{n} y_{ich} x_{ich} - \frac{\exp [x_{ich}^{⊺} β]}{(1 + \exp [x_{ich}^{⊺} β])} x_{ich} . \end{matrix}

$\nabla \ell(\boldsymbol{\beta}) = \sum_{i=1}^n y_i \mathbf{x}_i - \frac{\exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}]}{( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] ) }\mathbf{x}_i \tag{2}.$

Setzen Sie diesen Ausdruck gleich $\mathbf{0}$ und lösen für $\boldsymbol{\beta}$ wird dir deine antwort geben. Normalerweise kann dies nicht analytisch durchgeführt werden, was die Beliebtheit / Notwendigkeit der Verwendung iterativer Algorithmen zur Anpassung an dieses Modell erklärt. Bei einem gesättigten Modell ist dies jedoch möglich.

Um das gesättigte Modell zu finden, geben wir jeder Zeile einen eigenen Koeffizienten. So $\boldsymbol{\beta} \in \mathbb{R}^n$ und die Entwurfsmatrix multipliziert mit dem Koeffizientenvektor ist

X β = [\begin{matrix} 1 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 1 \end{matrix}] [\begin{matrix} β_{1} \\ β_{2} \\ ⋮ \\ β_{n} \end{matrix}] .

$\mathbf{X}\boldsymbol{\beta} = \begin{bmatrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1\\ \end{bmatrix} \begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n \end{bmatrix}.$

Beachten Sie, dass insbesondere $\mathbf{x}_i^\intercal \boldsymbol{\beta} = \beta_i$ .

Also nehmen Sie die $j$ Die dritte Zeile von Gleichung (2) gibt uns

\sum_{ich = 1}^{n} y_{ich} x_{ich, j} = \sum_{ich = 1}^{n} \frac{\exp [x_{ich}^{⊺} β]}{(1 + \exp [x_{ich}^{⊺} β])} x_{ich, j}

$\sum_{i=1}^n y_i x_{i,j} = \sum_{i=1}^n\frac{\exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}]}{( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] ) }x_{i,j}$

Das kann nur wahr sein, wenn für jede Beobachtung $i$ :

y_{ich} = Invlogit (β_{ich})

$y_i = \text{invlogit}(\beta_i )$ oder mit anderen Worten jeweils

β_{i}

$\beta_i$ ist plus oder minus unendlich (wenn

y_{i}

$y_i$ ist

1

$1$ oder

0

$0$ , beziehungsweise). Wir können diese Parameter wieder in (1) einfügen, um die maximale Wahrscheinlichkeit zu erhalten:

\prod_{ich = 1}^{n} {\hat{π}}_{ich}^{y_{ich}} (1 - {\hat{π}}_{ich})^{1 - y_{ich}} = 1^{n} = 1.

$\prod_{i=1}^n \hat{\pi}_i^{y_i}(1-\hat{\pi}_i)^{1-y_i} = 1^n = 1.$ Klar ist das Protokoll davon

0

$0$ .

— Taylor
quelle

Dies setzt jedoch nicht gruppierte Daten voraus . Wenn Sie Gruppen mit haben

n_{i} > 1

$n_i>1$ (und die gleichen kovariaten Werte) (in R, zum Beispiel unter Verwendung der Form glm( cbind(k, n-k) ~ x + ... ), dann hat das gesättigte Modell keine Log-Wahrscheinlichkeit Null.

— kjetil b halvorsen

@kjetilbhalvorsen oh guter Punkt. Ich habe nie versucht, das zu überprüfen

— Taylor

@Alex: Ja, das stimmt. Zumindest für diskrete Verteilungen. Bei kontinuierlichen Verteilungen würde es darauf ankommen, dass die Dichte gleich 1 ist, was nicht unbedingt sinnvoll und daher nicht sinnvoll ist. Etwas allgemeiner ausgedrückt gibt Ihnen die Log-Wahrscheinlichkeit des gesättigten Modells eine Obergrenze für die Leistung jedes Modells, das Ihrer Annahme der zugrunde liegenden Verteilungsfamilie folgt. Mit anderen Worten, die logarithmische Wahrscheinlichkeit eines gesättigten Binomialmodells ist für den gegebenen Datensatz (X, Y) "so gut wie es geht", vorausgesetzt, Y ist binomial. Es ist sinnvoll, Ihr GLM-Modell mit dieser Obergrenze zu vergleichen, im Gegensatz zu beispielsweise 100% (oder ähnlichem), da Ihr Modell von Natur aus von Ihrer Annahme über die Antwortverteilung abhängig ist.

— bettmensch88
quelle