Wie verwenden Sie den EM-Algorithmus, um MLEs für eine latente Variablenformulierung eines Poisson-Modells mit Null-Inflation zu berechnen?

Das auf Null aufgeblasene Poisson-Regressionsmodell wird für eine Stichprobe durch und es wird ferner angenommen, dass die Parameter und erfüllt sind $(y_1,\ldots,y_n)$

Y_{i} = {\begin{cases} 0 & with probability p_{i} + (1 - p_{i}) e^{- λ_{i}} \\ k & with probability (1 - p_{i}) e^{- λ_{i}} λ_{i}^{k} / k! \end{cases}

$Y_i = \begin{cases} 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! \end{cases}$

λ = (λ_{1}, \dots, λ_{n})

$\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)$

p = (p_{1}, \dots, p_{n})

$\textbf{p} = (p_1, \dots, p_n)$

\begin{aligned} \log (λ) & = B β \\ logit (p) & = \log (p / (1 - p)) = G γ . \end{aligned}

$\eqalign{ \log(\mathbf{\lambda}) &= \textbf{B} \beta \\ \text{logit}(\textbf{p}) &= \log(\textbf{p}/(1-\textbf{p})) = \textbf{G} \mathbf{\gamma}. }$

Die entsprechende logarithmische Wahrscheinlichkeit des Poisson-Regressionsmodells mit Null- ist

\begin{aligned} L (γ, β; y) & = \sum_{y_{i} = 0} \log (e^{G_{i} γ} + \exp (- e^{B_{i} β})) + \sum_{y_{i} > 0} (y_{i} B_{i} β - e^{B_{i} β}) \\ - \sum_{i = 1}^{n} \log (1 + e^{G_{i} γ}) - \sum_{y_{i} > 0} \log (y_{i}!) \end{aligned}

$\eqalign{ L(\gamma,\mathbf{\beta}; \mathbf{y}) &= \sum_{y_i=0} \log(e^{G_i \gamma}+\exp(-e^{\textbf{B}_i \mathbf{\beta}})) +\sum_{y_i >0} (y_i \textbf{B}_i \mathbf{\beta}-e^{\textbf{B}_i \mathbf{\beta}})\\ &\quad -\sum_{i=1}^{n} \log(1+e^{G_{i} \gamma})-\sum_{y_i >0} \log(y_{i}!)}$

Hier sind und die Entwurfsmatrizen. Diese Matrizen können abhängig von den Merkmalen, die für die beiden Erzeugungsprozesse verwendet werden sollen, gleich sein. Sie haben jedoch die gleiche Anzahl von Zeilen. $\mathrm{B}$ $\mathrm{G}$

Unter der Annahme, dass wir beobachten wenn aus dem perfekten stammt, und wenn aus dem Poisson-Zustand stammt, wäre die logarithmische Wahrscheinlichkeit $Z_i = 1$ $Y_i$ $Z_i = 0$ $Y_i$

L (γ, β; y, z) = \sum_{i = 1}^{n} \log (f (z_{i} | γ)) + \sum_{i = 1}^{n} \log (f (y_{i} | z_{i}, β))

$L(\gamma,\mathbf{\beta}; \mathbf{y}, \mathbf{z}) = \sum_{i=1}^{n} \log(f(z_i|\mathbf{\gamma}))+\sum_{i=1}^{n} \log(f(y_i|z_i, \mathbf{\beta}))$

= \sum_{i = 1}^{n} z_{i} (G_{i} γ - \log (1 + e^{G_{i} γ})) + - \sum_{i = 1}^{n} (1 - z_{i}) \log (1 + e^{G_{i} γ}) + \sum_{i = 1}^{n} (1 - z_{i}) [y_{i} B_{i} β - e^{B_{i} β} - \log (y_{i}!)]

$= \sum_{i=1}^{n} z_{i} (\textbf{G}_i \gamma-\log(1+e^{G_{i} \gamma}))+ -\sum_{i=1}^{n} (1-z_{i})\log(1+e^{G_{i} \gamma})+ \sum_{i=1}^{n} (1-z_i)[y_{i} \textbf{B}_i \beta-e^{\textbf{B}_i \beta} - \log(y_{i}!)]$ Die ersten beiden Begriffe sind der Verlust einer logistischen Regression zur Trennung von von . Der zweite Term ist eine Regression auf die durch den Poisson-Prozess erzeugten Punkte.

z_{i} = 0

$z_i=0$

z_{i} = 1

$z_i=1$

Aber sind latente Variablen nicht nicht beobachtbar? Der Zweck besteht darin, die erste Log-Wahrscheinlichkeit zu maximieren. Wir müssen jedoch latente Variablen einführen und eine neue Log-Wahrscheinlichkeit ableiten. Mit dem EM-Algorithmus können wir dann die zweite Log-Wahrscheinlichkeit maximieren. Dies setzt jedoch voraus, dass wir wissen, dass entweder oder ? $Z_i = 0$ $Z_i = 1$

— Damien
quelle

Was ist ? Außerdem scheinen große Teile dieser Frage weitgehend aus einer früheren, anderen Frage von @Robby ausgeschnitten und eingefügt worden zu sein. Sind Sie das?

f

$f$

— Makro

@ Macro: Makro ja das bin ich. Ich bin mir nicht sicher, was ist. Die Zeitung hat es nie gesagt.

f

$f$

— Damien

Die Wurzel der Schwierigkeit, die Sie haben, liegt im Satz:

Mit dem EM-Algorithmus können wir dann die zweite Log-Wahrscheinlichkeit maximieren.

Wie Sie beobachtet haben, können Sie nicht. Stattdessen maximieren Sie den erwarteten Wert der zweiten Protokollwahrscheinlichkeit (bekannt als "vollständige Datenprotokollwahrscheinlichkeit"), wobei der erwartete Wert über . $z_i$

Dies führt zu einer iterativen Prozedur, bei der Sie bei der -Iteration die erwarteten Werte des Berücksichtigung der Parameterschätzungen aus der -Iteration berechnen (dies wird als "E-Schritt" bezeichnet) ",) Ersetzen Sie sie dann durch die vollständige Datenprotokollwahrscheinlichkeit (siehe EDIT unten, warum wir dies in diesem Fall tun können) und maximieren Sie diese in Bezug auf die Parameter, um die Schätzungen für die aktuelle Iteration zu erhalten (der" M-Schritt "). .) $k^{th}$ $z_i$ $(k-1)^{th}$

Die Wahrscheinlichkeit eines vollständigen Datenprotokolls für das Poisson ohne Inflation im einfachsten Fall - zwei Parameter, z. B. und - ermöglicht eine erhebliche Vereinfachung des M-Schritts, was sich in gewissem Maße auf Ihre Form überträgt. Ich werde Ihnen anhand eines R-Codes zeigen, wie das im einfachen Fall funktioniert, damit Sie das Wesentliche sehen können. Ich werde nicht so viel wie möglich vereinfachen, da dies zu einem Verlust an Klarheit führen kann, wenn Sie an Ihr Problem denken: $\lambda$ $p$

# Generate data
# Lambda = 1,  p(zero) = 0.1
x <- rpois(10000,1)
x[1:1000] <- 0

# Sufficient statistic for the ZIP
sum.x <- sum(x)

# (Poor) starting values for parameter estimates
phat <- 0.5
lhat <- 2.0

zhat <- rep(0,length(x))
for (i in 1:100) {
  # zhat[x>0] <- 0 always, so no need to make the assignment at every iteration
  zhat[x==0] <- phat/(phat +  (1-phat)*exp(-lhat))

  lhat <- sum.x/sum(1-zhat) # in effect, removing E(# zeroes due to z=1)
  phat <- mean(zhat)   

  cat("Iteration: ",i, "  lhat: ",lhat, "  phat: ", phat,"\n")
}

Iteration:  1   lhat:  1.443948   phat:  0.3792712 
Iteration:  2   lhat:  1.300164   phat:  0.3106252 
Iteration:  3   lhat:  1.225007   phat:  0.268331 
...
Iteration:  99   lhat:  0.9883329   phat:  0.09311933 
Iteration:  100   lhat:  0.9883194   phat:  0.09310694

In Ihrem Fall führen Sie bei jedem Schritt eine gewichtete Poisson-Regression durch, bei der die Gewichte 1-zhatdie Schätzungen von und damit und dann maximieren: $\beta$ $\lambda_i$

$\sum (\mathbb{E}z_i\log{p_i} + (1-\mathbb{E}z_i)\log{(1-p_i)})$

in Bezug auf den Koeffizientenvektor Ihrer Matrix , um die Schätzungen von . Die erwarteten Werte werden bei jeder Iteration erneut berechnet. $\mathbf{G}$ $p_i$ $\mathbb{E}z_i = p_i/(p_i+(1-p_i)\exp{(-\lambda_i)})$

Wenn Sie dies für reale Daten tun möchten, anstatt nur den Algorithmus zu verstehen, sind bereits R-Pakete vorhanden. Hier ist ein Beispiel http://www.ats.ucla.edu/stat/r/dae/zipoisson.htm , das die psclBibliothek verwendet.

BEARBEITEN: Ich sollte betonen, dass wir den erwarteten Wert der Wahrscheinlichkeit des vollständigen Datenprotokolls maximieren und NICHT die Wahrscheinlichkeit des vollständigen Datenprotokolls mit den erwarteten Werten der fehlenden Daten / latenten Variablen, die eingesteckt sind, maximieren Die Wahrscheinlichkeit eines vollständigen Datenprotokolls ist in den fehlenden Daten linear, da hier die beiden Ansätze gleich sind, ansonsten jedoch nicht.

— jbowman
quelle

@Cokes, Sie sollten diese Informationen als Ihre eigene ergänzende Antwort hinzufügen und keine vorhandene Antwort ändern. Diese Bearbeitung sollte nicht genehmigt worden sein.

— Gung - Reinstate Monica