Wald-Test für logistische Regression


55

Nach meinem Verständnis wird der Wald-Test im Rahmen der logistischen Regression verwendet, um festzustellen, ob eine bestimmte Prädiktorvariable signifikant ist oder nicht. Die Nullhypothese, dass der entsprechende Koeffizient Null ist, wird verworfen.X

Der Test besteht aus der Division des Wertes des Koeffizienten durch den Standardfehler .σ

Was mich verwirrt, ist, dass auch als Z-Score bezeichnet wird und angibt, wie wahrscheinlich es ist, dass eine bestimmte Beobachtung aus der Normalverteilung stammt (mit dem Mittelwert Null).X/σ



2
Vielleicht könnte es umgekehrt sein, da die Antwort in diesem Fall weiter entwickelt ist.
Firebug

Antworten:


86

Die Schätzungen der Koeffizienten und der Abschnitte in der logistischen Regression (und etwaiger GLM) werden über die Maximum-Likelihood-Schätzung (MLE) ermittelt. Diese Schätzungen sind mit einem Hut über den Parameter bezeichnet, so etwas wie θ . Unser interessierender Parameter wird mit & thgr ; 0 bezeichnet und dies ist normalerweise 0, da wir testen möchten, ob der Koeffizient von 0 abweicht oder nicht. Aus asymptotischer Theorie der MLE, wir wissen , dass die Differenz zwischen θ und θ 0 ungefähr normalerweise mit einem Mittelwert 0 verteilt wird (Details können in jedem mathematischen Statistik Buch wie Larry Wasserman finden alle Statistiken ). Denken Sie daran, dass Standardfehler nichts anderes sind alsθ^θ0θ^θ0Standardabweichungen von Statistiken (Sokal und Rohlf schreiben in ihrem Buch Biometry : "Eine Statistik ist eine von vielen berechneten oder geschätzten statistischen Größen", z. B. der Mittelwert, der Median, die Standardabweichung, der Korrelationskoeffizient, der Regressionskoeffizient usw.). Wenn Sie eine Normalverteilung mit Mittelwert 0 und Standardabweichung durch ihre Standardabweichung dividieren, erhalten Sie die Standardnormalverteilung mit Mittelwert 0 und Standardabweichung 1. Die Wald-Statistik ist definiert als (z. B. Wasserman (2006): All of Statistics , S. 153, 214) -215): W = ( β - β 0 )σ oder W2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
Die zweite Form aus der Tatsache entstehtdass das Quadrat einer Standardnormalverteilung der istχ21-Verteilung mit 1 Freiheitsgrad (die Summe der zwei quadrierten Standardnormalverteilung würde seinχ22-Verteilung mit 2 Freiheitsgraden usw.).
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-Werte. In R, schauen Sie sich diese zwei Beispiele:

Logistische Regression

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


Normale lineare Regression (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

Eine weitere verwandte Post gefunden werden kann hier .


1
Vielen Dank für diesen netten Beitrag, der alle meine Fragen beantwortet.
User695652

1
In Bezug auf den ersten Teil Ihrer ausgezeichneten Antwort: Wenn ich aus irgendeinem Grund die Odds Ratio und die Wald-Statistik als Ausgabe haben würde, könnte ich den Standardfehler daraus berechnen als: SE = (1 / Wald- Statistik) * ln (OR) Stimmt das? Vielen Dank!
Sander W. van der Laan

1
@ SanderW.vanderLaan Danke für deinen Kommentar. Ja, ich glaube das ist richtig. Wenn Sie eine logistische Regression durchführen, ist die Wald-Statistik der Z-Wert.
COOLSerdash

2
Was für eine großartige Antwort !! Ich habe einige Änderungsvorschläge: Ich persönlich bin der Meinung, dass diese Antwort Details mit den Schlaglisten verwechselt. Ich würde die Details darüber, wie die lineare Regression die Varianz von Residuen verwendet, in einem separaten Diagramm darstellen.
Haitao Du

1
Auch für Dispersionsparameter und die Verbindung zum R-Code können wir möglicherweise einen anderen Abschnitt oder eine Trennlinie eröffnen, über die gesprochen werden soll.
Haitao Du
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.