Ein Vergleich von Konfidenzintervallmethoden an einem Beispiel von ISL
Das Buch "Introduction to Statistical Learning" von Tibshirani, James, Hastie bietet auf Seite 267 ein Beispiel für Konfidenzintervalle für die logistische polynomiale Regression Grad 4 der Lohndaten . Das Buch zitieren:
Wir modellieren den binären Ereignislohn Verwendung einer logistischen Regression mit einem Grad-4-Polynom. Die angepasste hintere Wahrscheinlichkeit eines Gehalts von mehr als 250.000 USD wird in Blau angezeigt, zusammen mit einem geschätzten Konfidenzintervall von 95%.wage>250
Im Folgenden finden Sie eine kurze Zusammenfassung von zwei Methoden zum Erstellen solcher Intervalle sowie Kommentare zu deren Implementierung von Grund auf
Wald / Endpoint-Transformationsintervalle
- Berechnen Sie die obere und untere Grenze des Konfidenzintervalls für die Linearkombination (mit dem Wald-CI).xTβ
- Wenden Sie eine monotone Transformation auf die Endpunkte an, um die Wahrscheinlichkeiten zu erhalten.F(xTβ)
DaPr(xTβ)=F(xTβ) ist eine monotone Transformation vonxTβ
[Pr(xTβ)L≤Pr(xTβ)≤Pr(xTβ)U]=[F(xTβ)L≤F(xTβ)≤F(xTβ)U]
Konkret heißt das rechnen βTx±z∗SE(βTx) und dann die logit-Transformation auf das Ergebnis angewendet wird, um die Unter- und Obergrenze zu erhalten:
[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]
Berechnung des Standardfehlers
Die Maximum-Likelihood-Theorie besagt, dass die ungefähre Varianz von unter Verwendung der Kovarianzmatrix der Regressionskoeffizienten unter Verwendung von berechnet werden kannxTβΣ
Var(xTβ)=xTΣx
Definieren Sie die Entwurfsmatrix und die Matrix alsXV
X = ⎡⎣⎢⎢⎢⎢⎢11⋮1x1,1x2,1⋮xn,1……⋱…x1,px2,p⋮xn,p⎤⎦⎥⎥⎥⎥⎥ V = ⎡⎣⎢⎢⎢⎢⎢π^1(1−π^1)0⋮00π^2(1−π^2)⋮0……⋱…00⋮π^n(1−π^n)⎤⎦⎥⎥⎥⎥⎥
wobei der Wert der ten Variablen für die ten Beobachtungen ist und die vorhergesagte Wahrscheinlichkeit für die Beobachtung .xi,jjiπ^ii
Die Kovarianzmatrix lautet dann: und der StandardfehlerΣ=(XTVX)−1SE(xTβ)=Var(xTβ)−−−−−−−−√
Die 95% -Konfidenzintervalle für die vorhergesagte Wahrscheinlichkeit können dann als dargestellt werden
Konfidenzintervalle der Delta-Methode
Der Ansatz besteht darin, die Varianz einer linearen Approximation der Funktion zu berechnen und diese zu verwenden, um große Abtastvertrauensintervalle zu konstruieren.F
Var[F(xTβ^)]≈∇FT Σ ∇F
Dabei ist der Gradient und die geschätzte Kovarianzmatrix. Beachten Sie, dass in einer Dimension: ∇Σ
∂F(xβ)∂β=∂F(xβ)∂xβ∂xβ∂β=xf(xβ)
Wobei die Ableitung von . Dies verallgemeinert sich im multivariaten FallfF
Var[F(xTβ^)]≈fT xT Σ x f
In unserem Fall ist F die logistische Funktion (die wir ), deren Ableitung istπ(xTβ)
π′(xTβ)=π(xTβ)(1−π(xTβ))
Wir können nun ein Konfidenzintervall unter Verwendung der oben berechneten Varianz konstruieren.
C.I.=[Pr(xβ^)−z∗Var[π(xβ^)]−−−−−−−−−√≤Pr(xβ^)+z∗Var[π(xβ^)]−−−−−−−−−√]
In Vektorform für den multivariaten Fall
C.I.=[π(xTβ^)±z∗(π(xTβ^)(1−π(xTβ^)))TxT Var[β^] x π(xTβ^)(1−π(xTβ^))]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
- Beachten Sie, dass einen einzelnen Datenpunkt in , dh eine einzelne Zeile der EntwurfsmatrixxRp+1X
Ein offener Abschluss
Ein Blick auf die Normalen QQ-Diagramme sowohl für die Wahrscheinlichkeiten als auch für die negativen logarithmischen Quoten zeigt, dass keine normalverteilt ist. Könnte dies den Unterschied erklären?
Quelle: