12

Ich studiere, wie aus den in der logistischen Regression erhaltenen Koeffizienten ein Konfidenzintervall von 95% für das Odds Ratio erstellt wird. Also, unter Berücksichtigung des logistischen Regressionsmodells,

Log (\frac{p}{1 - p}) = α + β x

$\log\left(\frac{p}{1 - p}\right) = \alpha + \beta x \newcommand{\var}{\rm Var} \newcommand{\se}{\rm SE}$

so dass für die Kontrollgruppe und für die Fallgruppe. $x = 0$ $x = 1$

Ich habe bereits gelesen, dass der einfachste Weg darin besteht, ein 95% -KI für zu konstruieren. $\beta$ Dann haben wir die Exponentialfunktion angewendet, d. H.

\hat{β} \pm 1,96 \times S E (\hat{β}) \to \exp {\hat{β} \pm 1,96 \times S E (\hat{β})}

$\hat{\beta} \pm 1.96\times \se(\hat{\beta}) \rightarrow \exp\{\hat{\beta} \pm 1.96\times \se(\hat{\beta})\}$

Meine Fragen sind:

Was ist der theoretische Grund, der dieses Verfahren rechtfertigt? Ich weiß, dass $\mbox{odds ratio} = \exp\{\beta\}$ und Maximum-Likelihood-Schätzer invariant sind. Ich kenne jedoch den Zusammenhang zwischen diesen Elementen nicht.
Sollte die Delta-Methode dasselbe 95% -Konfidenzintervall wie das vorherige Verfahren erzeugen? Unter Verwendung der Delta-Methode

$\exp {\hat{β}} \dot{\sim} N (β, \exp {β}^{2} V ein r (\hat{β}))$ $\exp\{\hat{\beta}\} \dot{\sim} N(\beta,\ \exp\{\beta\}^2 \var(\hat{\beta}))$
Dann,

$\exp {\hat{β}} \pm 1.96 \times \sqrt{\exp {β}^{2} V a r (\hat{β})}$ $\exp\{\hat{\beta}\} \pm 1.96\times \sqrt{\exp\{\beta\}^2 \var(\hat{\beta})}$
Wenn nicht, welches ist das beste Verfahren?

— Márcio Augusto Diniz
quelle

1

Ich mag Bootstrap auch für CI, wenn ich Parameterwerte oder Trainingsdaten von ausreichender Größe habe.

— EngrStudent - Wiedereinsetzung von Monica am

2

Es gibt eine bessere Möglichkeit, dies zu tun, siehe stats.stackexchange.com/questions/5304/… für Details

— mdewey

7

Die Begründung für das Verfahren ist die asymptotische Normalität des MLE für und ergibt sich aus Argumenten, die den zentralen Grenzwertsatz betreffen. $\beta$
Die Delta-Methode beruht auf einer linearen (dh Taylor erster Ordnung) Erweiterung der Funktion um die MLE. Anschließend appellieren wir an die asymptotische Normalität und Unparteilichkeit der MLE.

Asymptotisch geben beide die gleiche Antwort. In der Praxis würden Sie jedoch diejenige bevorzugen, die normaler aussieht. In diesem Beispiel würde ich das erste bevorzugen, da das letztere wahrscheinlich weniger symmetrisch ist.

— Amir
quelle

3

Ein Vergleich von Konfidenzintervallmethoden an einem Beispiel von ISL

Das Buch "Introduction to Statistical Learning" von Tibshirani, James, Hastie bietet auf Seite 267 ein Beispiel für Konfidenzintervalle für die logistische polynomiale Regression Grad 4 der Lohndaten . Das Buch zitieren:

Wir modellieren den binären Ereignislohn Verwendung einer logistischen Regression mit einem Grad-4-Polynom. Die angepasste hintere Wahrscheinlichkeit eines Gehalts von mehr als 250.000 USD wird in Blau angezeigt, zusammen mit einem geschätzten Konfidenzintervall von 95%. $wage>250$

Im Folgenden finden Sie eine kurze Zusammenfassung von zwei Methoden zum Erstellen solcher Intervalle sowie Kommentare zu deren Implementierung von Grund auf

Wald / Endpoint-Transformationsintervalle

Berechnen Sie die obere und untere Grenze des Konfidenzintervalls für die Linearkombination (mit dem Wald-CI). $x^T\beta$
Wenden Sie eine monotone Transformation auf die Endpunkte an, um die Wahrscheinlichkeiten zu erhalten. $F(x^T\beta)$

Da $Pr(x^T\beta) = F(x^T\beta)$ ist eine monotone Transformation von $x^T\beta$

[P r (x^{T} β)_{L} \leq P r (x^{T} β) \leq P r (x^{T} β)_{U}] = [F (x^{T} β)_{L} \leq F (x^{T} β) \leq F (x^{T} β)_{U}]

$[Pr(x^T\beta)_L \leq Pr(x^T\beta) \leq Pr(x^T\beta)_U] = [F(x^T\beta)_L \leq F(x^T\beta) \leq F(x^T\beta)_U]$

Konkret heißt das rechnen $\beta^Tx \pm z^* SE(\beta^Tx)$ und dann die logit-Transformation auf das Ergebnis angewendet wird, um die Unter- und Obergrenze zu erhalten:

[\frac{e^{x^{T} β - z^{*} S E (x^{T} β)}}{1 + e^{x^{T} β - z^{*} S E (x^{T} β)}}, \frac{e^{x^{T} β + z^{*} S E (x^{T} β)}}{1 + e^{x^{T} β + z^{*} S E (x^{T} β)}},]

$[\frac{e^{x^T\beta - z^* SE(x^T\beta)}}{1 + e^{x^T\beta - z^* SE(x^T\beta)}}, \frac{e^{x^T\beta + z^* SE(x^T\beta)}}{1 + e^{x^T\beta + z^* SE(x^T\beta)}},]$

Berechnung des Standardfehlers

Die Maximum-Likelihood-Theorie besagt, dass die ungefähre Varianz von unter Verwendung der Kovarianzmatrix der Regressionskoeffizienten unter Verwendung von berechnet werden kann $x^T\beta$ $\Sigma$

V a r (x^{T} β) = x^{T} Σ x

$Var(x^T\beta) = x^T \Sigma x$

Definieren Sie die Entwurfsmatrix und die Matrix als $X$ $V$

X = [\begin{matrix} 1 & x_{1, 1} & \dots & x_{1, p} \\ 1 & x_{2, 1} & \dots & x_{2, p} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & x_{n, 1} & \dots & x_{n, p} \end{matrix}] V = [\begin{matrix} {\hat{π}}_{1} (1 - {\hat{π}}_{1}) & 0 & \dots & 0 \\ 0 & {\hat{π}}_{2} (1 - {\hat{π}}_{2}) & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & {\hat{π}}_{n} (1 - {\hat{π}}_{n}) \end{matrix}]

$\textbf{X = }\begin{bmatrix} 1 & x_{1,1} & \ldots & x_{1,p} \\ 1 & x_{2,1} & \ldots & x_{2,p} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n,1} & \ldots & x_{n,p} \end{bmatrix} \ \ \ \ \textbf{V = } \begin{bmatrix} \hat{\pi}_{1}(1 - \hat{\pi}_{1}) & 0 & \ldots & 0 \\ 0 & \hat{\pi}_{2}(1 - \hat{\pi}_{2}) & \ldots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & \hat{\pi}_{n}(1 - \hat{\pi}_{n}) \end{bmatrix}$

wobei der Wert der ten Variablen für die ten Beobachtungen ist und die vorhergesagte Wahrscheinlichkeit für die Beobachtung . $x_{i,j}$ $j$ $i$ $\hat{\pi}_{i}$ $i$

Die Kovarianzmatrix lautet dann: und der Standardfehler $\Sigma = \textbf{(X}^{T}\textbf{V}\textbf{X)}^{-1}$ $SE(x^T\beta) = \sqrt{Var(x^T\beta)}$

Die 95% -Konfidenzintervalle für die vorhergesagte Wahrscheinlichkeit können dann als dargestellt werden

Konfidenzintervalle der Delta-Methode

Der Ansatz besteht darin, die Varianz einer linearen Approximation der Funktion zu berechnen und diese zu verwenden, um große Abtastvertrauensintervalle zu konstruieren. $F$

Var [F (x^{T} \hat{β})] \approx \nabla F^{T} Σ \nabla F

$\text{Var}[F\mathbf{(x^T \hat \beta)}] \approx \nabla F^T \ \Sigma \ \nabla F$

Dabei ist der Gradient und die geschätzte Kovarianzmatrix. Beachten Sie, dass in einer Dimension: $\nabla$ $\Sigma$

\frac{\partial F (x β)}{\partial β} = \frac{\partial F (x β)}{\partial x β} \frac{\partial x β}{\partial β} = x f (x β)

$\frac{\partial F(x\beta)}{\partial \beta} = \frac{\partial F(x\beta)}{\partial x\beta} \frac{\partial x\beta}{\partial \beta} = x f(x\beta)$

Wobei die Ableitung von . Dies verallgemeinert sich im multivariaten Fall $f$ $F$

Var [F (x^{T} \hat{β})] \approx f^{T} x^{T} Σ x f

$\text{Var}[F\mathbf{(x^T \hat \beta)}] \approx f^T \ \mathbf{x^T} \ \Sigma \ \mathbf{x} \ f$

In unserem Fall ist F die logistische Funktion (die wir ), deren Ableitung ist $\pi(x^T\beta)$

π^{'} (x^{T} β) = π (x^{T} β) (1 - π (x^{T} β))

$\pi'(x^T\beta) = \pi (x^T\beta) (1 - \pi (x^T\beta) )$

Wir können nun ein Konfidenzintervall unter Verwendung der oben berechneten Varianz konstruieren.

C . I . = [P r (x \hat{β}) - z^{*} \sqrt{Var [π (x \hat{β})]} \leq P r (x \hat{β}) + z^{*} \sqrt{Var [π (x \hat{β})]}]

$C.I. = [Pr(x\hat \beta) - z^* \sqrt{\text{Var}[ \pi(x \hat \beta) ]} \leq Pr(x\hat \beta) + z^* \sqrt{\text{Var}[ \pi(x \hat \beta) ]} ]$

In Vektorform für den multivariaten Fall

C . I . = [π (x^{T} \hat{β}) \pm z^{*} \sqrt{{(π (x^{T} \hat{β}) (1 - π (x^{T} \hat{β})))}^{T} x^{T} Var [\hat{β}] x π (x^{T} \hat{β}) (1 - π (x^{T} \hat{β}))]}

$C.I. = \mathbf{[\pi(x^T\hat \beta) \pm z^* \sqrt{ \left(\pi(x^T \hat \beta) (1 - \pi(x^T \hat \beta) ) \right)^T x^T \ \ \text{Var}[ \hat \beta] \ \ x \ \ \pi(x^T \hat \beta) (1 - \pi(x^T \hat \beta) ) ]}}$

Beachten Sie, dass einen einzelnen Datenpunkt in , dh eine einzelne Zeile der Entwurfsmatrix $\mathbf{x}$ $\mathbb{R}^{p+1}$ $X$

Ein offener Abschluss

Ein Blick auf die Normalen QQ-Diagramme sowohl für die Wahrscheinlichkeiten als auch für die negativen logarithmischen Quoten zeigt, dass keine normalverteilt ist. Könnte dies den Unterschied erklären?

Quelle:

— Xavier Bourret Sicotte
quelle

1

In den meisten Fällen ist der einfachste Weg wahrscheinlich der beste, wie im Zusammenhang mit einer Protokolltransformation auf dieser Seite beschrieben . Stellen Sie sich vor, Ihre abhängige Variable wird auf der Logit-Skala analysiert, wobei statistische Tests durchgeführt und Konfidenzintervalle (CI) auf dieser Logit-Skala definiert werden. Das Verhältnis von Back-Transformation zu Odds besteht einfach darin, diese Ergebnisse in eine Skala zu bringen, die ein Leser leichter erfassen kann. Dies wird beispielsweise auch in der Cox-Überlebensanalyse durchgeführt, bei der die Regressionskoeffizienten (und der 95% -CI) potenziert werden, um Gefährdungsquoten und ihren CI zu erhalten.

— EdM
quelle

Verschiedene Methoden zur Erstellung eines Konfidenzintervalls für das Odds Ratio aus der logistischen Regression

Ein Vergleich von Konfidenzintervallmethoden an einem Beispiel von ISL

Wald / Endpoint-Transformationsintervalle

Berechnung des Standardfehlers

Konfidenzintervalle der Delta-Methode

Ein offener Abschluss