Warum wird Newtons Methode zur Optimierung der logistischen Regression als iterative, neu gewichtete Fehlerquadrate bezeichnet?

Es scheint mir nicht klar zu sein, weil logistischer Verlust und Verlust der kleinsten Quadrate völlig verschiedene Dinge sind.

— Haitao Du
quelle

Ich denke nicht, dass sie gleich sind. IRLS ist Newton-Raphson mit dem erwarteten Hessischen anstelle des beobachteten Hessischen.

— Dimitriy V. Masterov

@ DimitriyV.Masterov danke, kannst du mir mehr über Expected Hessian vs Observed erzählen?

— Haitao Du

Siehe auch stats.stackexchange.com/questions/236676/…

— kjetil b halvorsen

Zusammenfassung: GLMs werden durch Fisher-Scoring angepasst, das, wie Dimitriy V. Masterov bemerkt, Newton-Raphson mit dem erwarteten Hessischen ist (dh wir verwenden eine Schätzung der Fisher-Informationen anstelle der beobachteten Informationen). Wenn wir die kanonische Verknüpfungsfunktion verwenden, stellt sich heraus, dass das beobachtete Hessische dem erwarteten Hessischen entspricht, so dass NR und Fisher-Wertung in diesem Fall gleich sind. Wie auch immer, wir werden sehen, dass das Fisher-Scoring tatsächlich ein lineares Modell mit gewichteten kleinsten Quadraten anpasst, und der Koeffizient, der daraus geschätzt wird, * konvergiert mit einem Maximum der logistischen Regressionswahrscheinlichkeit. Wir reduzieren nicht nur die Anpassung einer logistischen Regression an ein bereits gelöstes Problem, sondern können auch die lineare Regressionsdiagnose für die endgültige WLS-Anpassung verwenden, um mehr über unsere logistische Regression zu erfahren.

Ich werde mich weiterhin auf die logistische Regression konzentrieren, aber für eine allgemeinere Perspektive auf die maximale Wahrscheinlichkeit bei GLM empfehle ich Abschnitt 15.3 dieses Kapitels, der dies durchläuft und IRLS in einer allgemeineren Umgebung ableitet (ich denke, es ist von John Fox's Applied) Regressionsanalyse und verallgemeinerte lineare Modelle ).

$^*$ siehe Kommentare am Ende

Die Wahrscheinlichkeits- und Punktzahlfunktion

Wir werden unsere GLM anpassen, indem wir etwas von der Form iterieren. wobei die Log-Wahrscheinlichkeit ist und

b^{(m + 1)} = b^{(m)} - J_{(m)}^{- 1} \nabla ℓ (b^{(m)})

$b^{(m+1)} = b^{(m)} - J^{-1}_{(m)}\nabla \ell(b^{(m)})$

ℓ

$\ell$

J_{m}

$J_{m}$ entweder das beobachtete oder das erwartete Hessische der logarithmischen Wahrscheinlichkeit ist.

Unsere Verknüpfungsfunktion ist eine Funktion , die den bedingten Mittelwert auf unseren linearen Prädiktor abbildet , sodass unser Modell für den Mittelwert lautet . Sei die Inverse-Link-Funktion, die den linearen Prädiktor auf den Mittelwert abbildet. $g$ $\mu_i = E(y_i | x_i)$ $g(\mu_i) = x_i^T\beta$ $h$

Für eine logistische Regression haben wir eine Bernoulli - Wahrscheinlichkeit mit unabhängigen Beobachtungen so Unter Derivaten,

ℓ (b; y) = \sum_{i = 1}^{n} y_{i} \log h (x_{i}^{T} b) + (1 - y_{i}) \log (1 - h (x_{i}^{T} b)) .

$\ell(b; y) = \sum_{i=1}^n y_i\log h(x_i^T b) + (1 - y_i) \log(1 - h(x_i^Tb)).$

\frac{\partial ℓ}{\partial b_{j}} = \sum_{i = 1}^{n} \frac{y_{i}}{h (x_{i}^{T} b)} h^{'} (x_{i}^{T} b) x_{i j} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)} h^{'} (x_{i}^{T} b) x_{i j}

$\frac{\partial \ell}{\partial b_j} = \sum_{i=1}^n \frac{y_i}{h(x_i^T b)} h'(x_i^T b) x_{ij} - \frac{1 - y_i}{1 - h(x_i^T b)} h'(x_i^T b) x_{ij}$

= \sum_{i = 1}^{n} x_{i j} h^{'} (x_{i}^{T} b) (\frac{y_{i}}{h (x_{i}^{T} b)} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)})

$= \sum_{i=1}^n x_{ij} h'(x_i^T b) \left(\frac{y_i}{h(x_i^T b)} - \frac{1 - y_i}{1 - h(x_i^T b)} \right)$

= \sum_{i} x_{i j} \frac{h^{'} (x_{i}^{T} b)}{h (x_{i}^{T} b) (1 - h (x_{i}^{T} b))} (y_{i} - h (x_{i}^{T} b)) .

$= \sum_i x_{ij} \frac{h'(x_i^T b)}{h(x_i^T b)(1 - h(x_i^T b))}(y_i - h(x_i^T b)).$

Verwendung des kanonischen Links

Nehmen wir nun an, wir verwenden die kanonische Linkfunktion . Dann ist $g_c = \text{logit}$ soder dies vereinfacht zu bedeutet $g^{-1}_c(x) := h_c(x) = \frac{1}{1+e^{-x}}$ $h_c' = h_c \cdot (1-h_c)$ so Darüber hinaus immer noch mit,

\frac{\partial ℓ}{\partial b_{j}} = \sum_{i} x_{i j} (y_{i} - h_{c} (x_{i}^{T} b))

$\frac{\partial \ell}{\partial b_j} = \sum_i x_{ij} (y_i - h_c(x_i^T b))$

\nabla ℓ (b; y) = X^{T} (y - \hat{y}) .

$\nabla \ell (b; y) = X^T (y - \hat y).$

h_{c}

$h_c$

\frac{\partial^{2} ℓ}{\partial b_{k} \partial b_{j}} = - \sum_{i} x_{i j} \frac{\partial}{\partial b_{k}} h_{c} (x_{i}^{T} b) = - \sum_{i} x_{i j} x_{i k} [h_{c} (x_{i}^{T} b) (1 - h_{c} (x_{i}^{T} b))] .

$\frac{\partial^2 \ell}{\partial b_k \partial b_j} = - \sum_i x_{ij} \frac{\partial}{\partial b_k} h_c(x_i^T b) = - \sum_i x_{ij}x_{ik} \left[h_c(x_i^T b) (1 - h_c(x_i^T b))\right].$

W = diag (h_{c} (x_{1}^{T} b) (1 - h_{c} (x_{1}^{T} b)), \dots, h_{c} (x_{n}^{T} b) (1 - h_{c} (x_{n}^{T} b))) = diag ({\hat{y}}_{1} (1 - {\hat{y}}_{1}), \dots, {\hat{y}}_{n} (1 - {\hat{y}}_{n})) .

$W = \text{diag}\left(h_c(x_1^T b)(1 - h_c(x_1^T b)), \dots, h_c(x_n^T b)(1 - h_c(x_n^T b))\right) = \text{diag}\left(\hat y_1(1 - \hat y_1), \dots, \hat y_n (1 - \hat y_n)\right).$

H = - X^{T} W X

$H = -X^TWX$

y_{i}

$y_i$

E (H) = H

$E(H) = H$

b

$b$

y

$y$

{\hat{y}}_{i} \in (0, 1)

$\hat y_i \in (0,1)$

- X^{T} W X

$-X^TWX$

{\hat{y}}_{i}

$\hat y_i$

0

$0$

1

$1$

0

$0$

H

$H$

$z = W^{-1}(y - \hat y)$

\nabla ℓ = X^{T} (y - \hat{y}) = X^{T} W z .

$\nabla \ell = X^T(y - \hat y) = X^T W z.$

b^{(m + 1)} = b^{(m)} + (X^{T} W_{(m)} X)^{- 1} X^{T} W_{(m)} z_{(m)}

$b^{(m+1)} = b^{(m)} + (X^T W_{(m)} X)^{-1}X^T W_{(m)} z_{(m)}$

(X^{T} W_{(m)} X)^{- 1} X^{T} W_{(m)} z_{(m)}

$(X^T W_{(m)} X)^{-1}X^T W_{(m)} z_{(m)}$

\hat{β}

$\hat \beta$

z_{(m)}

$z_{(m)}$

X

$X$

Einchecken in R:

set.seed(123)
p <- 5
n <- 500
x <- matrix(rnorm(n * p), n, p)
betas <- runif(p, -2, 2)
hc <- function(x) 1 /(1 + exp(-x)) # inverse canonical link
p.true <- hc(x %*% betas)
y <- rbinom(n, 1, p.true)

# fitting with our procedure
my_IRLS_canonical <- function(x, y, b.init, hc, tol=1e-8) {
  change <- Inf
  b.old <- b.init
  while(change > tol) {
    eta <- x %*% b.old  # linear predictor
    y.hat <- hc(eta)
    h.prime_eta <- y.hat * (1 - y.hat)
    z <- (y - y.hat) / h.prime_eta

    b.new <- b.old + lm(z ~ x - 1, weights = h.prime_eta)$coef  # WLS regression
    change <- sqrt(sum((b.new - b.old)^2))
    b.old <- b.new
  }
  b.new
}

my_IRLS_canonical(x, y, rep(1,p), hc)
# x1         x2         x3         x4         x5 
# -1.1149687  2.1897992  1.0271298  0.8702975 -1.2074851

glm(y ~ x - 1, family=binomial())$coef
# x1         x2         x3         x4         x5 
# -1.1149687  2.1897992  1.0271298  0.8702975 -1.2074851

und sie stimmen zu.

Nicht-kanonische Linkfunktionen

$\frac{h'}{h(1-h)} = 1$ $\nabla \ell$ $H$ $E(H)$

$\nabla \ell$

\frac{\partial^{2} ℓ}{\partial b_{k} \partial b_{j}} = \sum_{i} x_{i j} \frac{\partial}{\partial b_{k}} h^{'} (x_{i}^{T} b) (\frac{y_{i}}{h (x_{i}^{T} b)} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)})

$\frac{\partial^2 \ell}{\partial b_k \partial b_j} = \sum_i x_{ij} \frac{\partial}{\partial b_k}h'(x_i^T b) \left(\frac{y_i}{h(x_i^T b)} - \frac{1 - y_i}{1 - h(x_i^T b)} \right)$

= \sum_{i} x_{i j} x_{i k} [h^{″} (x_{i}^{T} b) (\frac{y_{i}}{h (x_{i}^{T} b)} - \frac{1 - y_{i}}{1 - h (x_{i}^{T} b)}) - h^{'} (x_{i}^{T} b)^{2} (\frac{y_{i}}{h (x_{i}^{T} b)^{2}} + \frac{1 - y_{i}}{(1 - h (x_{i}^{T} b))^{2}})]

$= \sum_i x_{ij}x_{ik} \left[h''(x_i^T b) \left(\frac{y_i}{h(x_i^T b)} - \frac{1 - y_i}{1 - h(x_i^T b)} \right) - h'(x_i^T b)^2\left(\frac{y_i}{h(x_i^T b)^2} + \frac{1-y_i}{(1-h(x_i^T b))^2} \right)\right]$

$E(H)$ $y_i$ $\mu_i=h(x_i^T\beta)$

h^{″} (x_{i}^{T} b) (\frac{h (x_{i}^{T} β)}{h (x_{i}^{T} b)} - \frac{1 - h (x_{i}^{T} β)}{1 - h (x_{i}^{T} b)}) - h^{'} (x_{i}^{T} b)^{2} (\frac{h (x_{i}^{T} β)}{h (x_{i}^{T} b)^{2}} + \frac{1 - h (x_{i}^{T} β)}{(1 - h (x_{i}^{T} b))^{2}}) .

$h''(x_i^T b) \left(\frac{h(x_i^T \beta)}{h(x_i^T b)} - \frac{1 - h(x_i^T \beta)}{1 - h(x_i^T b)} \right) - h'(x_i^T b)^2\left(\frac{h(x_i^T \beta)}{h(x_i^T b)^2} + \frac{1-h(x_i^T \beta)}{(1-h(x_i^T b))^2} \right).$

β

$\beta$

m

$m$

b^{(m)}

$b^{(m)}$

h^{″} (x_{i}^{T} b) (\frac{h (x_{i}^{T} b)}{h (x_{i}^{T} b)} - \frac{1 - h (x_{i}^{T} b)}{1 - h (x_{i}^{T} b)}) - h^{'} (x_{i}^{T} b)^{2} (\frac{h (x_{i}^{T} b)}{h (x_{i}^{T} b)^{2}} + \frac{1 - h (x_{i}^{T} b)}{(1 - h (x_{i}^{T} b))^{2}})

$h''(x_i^T b) \left(\frac{h(x_i^T b)}{h(x_i^T b)} - \frac{1 - h(x_i^T b)}{1 - h(x_i^T b)} \right) - h'(x_i^T b)^2\left(\frac{h(x_i^T b)}{h(x_i^T b)^2} + \frac{1-h(x_i^T b)}{(1-h(x_i^T b))^2} \right)$

= - h^{'} (x_{i}^{T} b)^{2} (\frac{1}{h (x_{i}^{T} b)} + \frac{1}{1 - h (x_{i}^{T} b)})

$= - h'(x_i^T b)^2\left(\frac{1}{h(x_i^T b)} + \frac{1}{1-h(x_i^T b)} \right)$

= - \frac{h^{'} (x_{i}^{T} b)^{2}}{h (x_{i}^{T} b) (1 - h (x_{i}^{T} b))} .

$= -\frac{h'(x_i^T b)^2}{h(x_i^T b)(1-h(x_i^T b))}.$

J

$J$

J_{j k} = - \sum_{i} x_{i j} x_{i k} \frac{h^{'} (x_{i}^{T} b)^{2}}{h (x_{i}^{T} b) (1 - h (x_{i}^{T} b))} .

$J_{jk} = -\sum_i x_{ij}x_{ik} \frac{h'(x_i^T b)^2}{h(x_i^T b)(1-h(x_i^T b))}.$

W^{*} = diag (\frac{h^{'} (x_{1}^{T} b)^{2}}{h (x_{1}^{T} b) (1 - h (x_{1}^{T} b))}, \dots, \frac{h^{'} (x_{n}^{T} b)^{2}}{h (x_{n}^{T} b) (1 - h (x_{n}^{T} b))})

$W^* = \text{diag}\left(\frac{h'(x_1^T b)^2}{h(x_1^T b)(1-h(x_1^T b))} ,\dots, \frac{h'(x_n^T b)^2}{h(x_n^T b)(1-h(x_n^T b))}\right)$

h_{c}^{'} = h_{c} \cdot (1 - h_{c})

$h_c' = h_c \cdot (1-h_c)$

W^{*}

$W^*$

W

$W$

J = - X^{T} W^{*} X

$J = -X^TW^*X$

\hat{E} (H)

$\hat E(H)$

H

$H$

i

$i$

W_{i i}^{*} > 0

$W_{ii}^* > 0$

J

$J$

\frac{\partial ℓ}{\partial b_{j}} = \sum_{i} x_{i j} \frac{h^{'} (x_{i}^{T} b)}{h (x_{i}^{T} b) (1 - h (x_{i}^{T} b))} (y_{i} - h (x_{i}^{T} b))

$\frac{\partial \ell}{\partial b_j} = \sum_i x_{ij} \frac{h'(x_i^T b)}{h(x_i^T b)(1 - h(x_i^T b))}(y_i - h(x_i^T b))$

z^{*} = D^{- 1} (y - \hat{y})

$z^* = D^{-1}(y-\hat y)$

D = diag (h^{'} (x_{1}^{T} b), \dots, h^{'} (x_{n}^{T} b))

$D=\text{diag}\left(h'(x_1^T b), \dots, h'(x_n^T b)\right)$

\nabla ℓ = X^{T} W^{*} z^{*}

$\nabla \ell = X^TW^*z^*$

b^{(m + 1)} = b^{(m)} + (X^{T} W_{(m)}^{*} X)^{- 1} X^{T} W_{(m)}^{*} z_{(m)}^{*}

$b^{(m+1)} = b^{(m)} + (X^T W_{(m)}^* X)^{-1}X^T W_{(m)}^* z_{(m)}^*$

$b^{(m+1)}$ $b^{(m)}$

b^{(m + 1)} = b^{(m)} + (X^{T} W_{(m)}^{*} X)^{- 1} X^{T} W_{(m)}^{*} z_{(m)}^{*}

$b^{(m+1)} = b^{(m)} + (X^T W_{(m)}^* X)^{-1}X^T W_{(m)}^* z_{(m)}^*$

= (X^{T} W_{(m)}^{*} X)^{- 1} (X^{T} W_{(m)}^{*} X b^{(m)} + X^{T} W_{(m)}^{*} z_{(m)}^{*})

$= (X^T W_{(m)}^* X)^{-1}\left(X^T W_{(m)}^* Xb^{(m)}+ X^TW^*_{(m)}z_{(m)}^* \right)$

= (X^{T} W_{(m)}^{*} X)^{- 1} X^{T} W_{(m)}^{*} (X b^{(m)} + z_{(m)}^{*})

$= (X^T W_{(m)}^* X)^{-1}X^TW_{(m)}^*\left(Xb^{(m)}+ z_{(m)}^* \right)$

η^{(m)} + D_{(m)}^{- 1} (y - {\hat{y}}^{(m)})

$\eta^{(m)} + D^{-1}_{(m)}(y - \hat y^{(m)})$

Lassen Sie uns bestätigen, dass dies funktioniert, indem wir eine Probit-Regression mit denselben simulierten Daten wie zuvor durchführen (und dies ist nicht die kanonische Verknüpfung, daher benötigen wir diese allgemeinere Form von IRLS).

my_IRLS_general <- function(x, y, b.init, h, h.prime, tol=1e-8) {
  change <- Inf
  b.old <- b.init
  while(change > tol) {
    eta <- x %*% b.old  # linear predictor
    y.hat <- h(eta)
    h.prime_eta <- h.prime(eta)
    w_star <- h.prime_eta^2 / (y.hat * (1 - y.hat))
    z_star <- (y - y.hat) / h.prime_eta

    b.new <- b.old + lm(z_star ~ x - 1, weights = w_star)$coef  # WLS

    change <- sqrt(sum((b.new - b.old)^2))
    b.old <- b.new
  }
  b.new
}

# probit inverse link and derivative
h_probit <- function(x) pnorm(x, 0, 1)
h.prime_probit <- function(x) dnorm(x, 0, 1)

my_IRLS_general(x, y, rep(0,p), h_probit, h.prime_probit)
# x1         x2         x3         x4         x5 
# -0.6456508  1.2520266  0.5820856  0.4982678 -0.6768585 

glm(y~x-1, family=binomial(link="probit"))$coef
# x1         x2         x3         x4         x5 
# -0.6456490  1.2520241  0.5820835  0.4982663 -0.6768581

und wieder sind sich die beiden einig.

Anmerkungen zur Konvergenz

$J_{(m)}$ b.init=rep(1,p) $\hat y_i$ $1$ $\hat y_i (1 - \hat y_i)$ $\hat y_i$ $0$ $1$

— jld
quelle

+1. Ich finde es toll, wie detailliert Ihre Antworten oft sind.

— Amöbe sagt Reinstate Monica

Sie gaben an, dass "die Koeffizientenschätzungen aus dieser Konvergenz mit einem Maximum der logistischen Regressionswahrscheinlichkeit" übereinstimmen. Geht das unbedingt von Anfangswerten aus?

— Mark L. Stone

@ MarkL.Stone ah Ich war dort zu locker, wollte die Optimierungsleute nicht beleidigen :) Ich werde einige weitere Details hinzufügen (und würde mich über Ihre Gedanken

— freuen

Hast du den Link gesehen, den ich gepostet habe? Scheint, dass Video aus der Perspektive des maschinellen Lernens spricht, nur um den logistischen Verlust zu optimieren, ohne über die Erwartungen von Hessain zu sprechen?

— Haitao Du

@ hxd1011 in dem pdf, auf das ich verlinkt habe (link again: sagepub.com/sites/default/files/upm-binaries/… ) auf Seite 24 geht der Autor auf die Theorie ein und erklärt, was genau eine Linkfunktion kanonisch macht. Ich fand das PDF äußerst hilfreich, als ich zum ersten Mal darauf stieß (obwohl ich eine Weile gebraucht habe, um durchzukommen).

— 7.