Verschiedene Methoden zur Erstellung eines Konfidenzintervalls für das Odds Ratio aus der logistischen Regression


12

Ich studiere, wie aus den in der logistischen Regression erhaltenen Koeffizienten ein Konfidenzintervall von 95% für das Odds Ratio erstellt wird. Also, unter Berücksichtigung des logistischen Regressionsmodells,

Log(p1-p)=α+βx

so dass für die Kontrollgruppe und x = 1 für die Fallgruppe.x=0x=1

Ich habe bereits gelesen, dass der einfachste Weg darin besteht, ein 95% -KI für \ beta zu konstruieren. βDann haben wir die Exponentialfunktion angewendet, d. H.

β^±1,96×SE(β^)exp{β^±1,96×SE(β^)}

Meine Fragen sind:

  1. Was ist der theoretische Grund, der dieses Verfahren rechtfertigt? Ich weiß, dass Wahrscheinlichkeit=exp{β} und Maximum-Likelihood-Schätzer invariant sind. Ich kenne jedoch den Zusammenhang zwischen diesen Elementen nicht.

  2. Sollte die Delta-Methode dasselbe 95% -Konfidenzintervall wie das vorherige Verfahren erzeugen? Unter Verwendung der Delta-Methode

    exp{β^}˙N(β, exp{β}2Veinr(β^))

    Dann,

    exp{β^}±1.96×exp{β}2Var(β^)

    Wenn nicht, welches ist das beste Verfahren?


1
Ich mag Bootstrap auch für CI, wenn ich Parameterwerte oder Trainingsdaten von ausreichender Größe habe.
EngrStudent - Wiedereinsetzung von Monica am

2
Es gibt eine bessere Möglichkeit, dies zu tun, siehe stats.stackexchange.com/questions/5304/… für Details
mdewey

Antworten:


7
  1. Die Begründung für das Verfahren ist die asymptotische Normalität des MLE für und ergibt sich aus Argumenten, die den zentralen Grenzwertsatz betreffen.β

  2. Die Delta-Methode beruht auf einer linearen (dh Taylor erster Ordnung) Erweiterung der Funktion um die MLE. Anschließend appellieren wir an die asymptotische Normalität und Unparteilichkeit der MLE.

Asymptotisch geben beide die gleiche Antwort. In der Praxis würden Sie jedoch diejenige bevorzugen, die normaler aussieht. In diesem Beispiel würde ich das erste bevorzugen, da das letztere wahrscheinlich weniger symmetrisch ist.


3

Ein Vergleich von Konfidenzintervallmethoden an einem Beispiel von ISL

Das Buch "Introduction to Statistical Learning" von Tibshirani, James, Hastie bietet auf Seite 267 ein Beispiel für Konfidenzintervalle für die logistische polynomiale Regression Grad 4 der Lohndaten . Das Buch zitieren:

Wir modellieren den binären Ereignislohn Verwendung einer logistischen Regression mit einem Grad-4-Polynom. Die angepasste hintere Wahrscheinlichkeit eines Gehalts von mehr als 250.000 USD wird in Blau angezeigt, zusammen mit einem geschätzten Konfidenzintervall von 95%.wage>250

Im Folgenden finden Sie eine kurze Zusammenfassung von zwei Methoden zum Erstellen solcher Intervalle sowie Kommentare zu deren Implementierung von Grund auf

Wald / Endpoint-Transformationsintervalle

  • Berechnen Sie die obere und untere Grenze des Konfidenzintervalls für die Linearkombination (mit dem Wald-CI).xTβ
  • Wenden Sie eine monotone Transformation auf die Endpunkte an, um die Wahrscheinlichkeiten zu erhalten.F(xTβ)

DaPr(xTβ)=F(xTβ) ist eine monotone Transformation vonxTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

Konkret heißt das rechnen βTx±zSE(βTx) und dann die logit-Transformation auf das Ergebnis angewendet wird, um die Unter- und Obergrenze zu erhalten:

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

Berechnung des Standardfehlers

Die Maximum-Likelihood-Theorie besagt, dass die ungefähre Varianz von unter Verwendung der Kovarianzmatrix der Regressionskoeffizienten unter Verwendung von berechnet werden kannxTβΣ

Var(xTβ)=xTΣx

Definieren Sie die Entwurfsmatrix und die Matrix alsXV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

wobei der Wert der ten Variablen für die ten Beobachtungen ist und die vorhergesagte Wahrscheinlichkeit für die Beobachtung .xi,jjiπ^ii

Die Kovarianzmatrix lautet dann: und der StandardfehlerΣ=(XTVX)1SE(xTβ)=Var(xTβ)

Die 95% -Konfidenzintervalle für die vorhergesagte Wahrscheinlichkeit können dann als dargestellt werden

Bildbeschreibung hier eingeben


Konfidenzintervalle der Delta-Methode

Der Ansatz besteht darin, die Varianz einer linearen Approximation der Funktion zu berechnen und diese zu verwenden, um große Abtastvertrauensintervalle zu konstruieren.F

Var[F(xTβ^)]FT Σ F

Dabei ist der Gradient und die geschätzte Kovarianzmatrix. Beachten Sie, dass in einer Dimension: Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

Wobei die Ableitung von . Dies verallgemeinert sich im multivariaten FallfF

Var[F(xTβ^)]fT xT Σ x f

In unserem Fall ist F die logistische Funktion (die wir ), deren Ableitung istπ(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

Wir können nun ein Konfidenzintervall unter Verwendung der oben berechneten Varianz konstruieren.

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

In Vektorform für den multivariaten Fall

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • Beachten Sie, dass einen einzelnen Datenpunkt in , dh eine einzelne Zeile der EntwurfsmatrixxRp+1X

Bildbeschreibung hier eingeben


Ein offener Abschluss

Ein Blick auf die Normalen QQ-Diagramme sowohl für die Wahrscheinlichkeiten als auch für die negativen logarithmischen Quoten zeigt, dass keine normalverteilt ist. Könnte dies den Unterschied erklären?

Bildbeschreibung hier eingeben

Quelle:


1

In den meisten Fällen ist der einfachste Weg wahrscheinlich der beste, wie im Zusammenhang mit einer Protokolltransformation auf dieser Seite beschrieben . Stellen Sie sich vor, Ihre abhängige Variable wird auf der Logit-Skala analysiert, wobei statistische Tests durchgeführt und Konfidenzintervalle (CI) auf dieser Logit-Skala definiert werden. Das Verhältnis von Back-Transformation zu Odds besteht einfach darin, diese Ergebnisse in eine Skala zu bringen, die ein Leser leichter erfassen kann. Dies wird beispielsweise auch in der Cox-Überlebensanalyse durchgeführt, bei der die Regressionskoeffizienten (und der 95% -CI) potenziert werden, um Gefährdungsquoten und ihren CI zu erhalten.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.