Ich führte eine multivariate logistische Regression durch, wobei die abhängige Variable Y
innerhalb eines bestimmten Eintrittszeitraums der Tod in einem Pflegeheim war, und erhielt die folgenden Ergebnisse (beachten Sie, dass die Variablen, die darin beginnen A
, ein kontinuierlicher Wert sind, während die Variablen, die in beginnen, B
kategorisch sind):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Wie Sie sehen können, sind alle Variablen insofern "signifikant", als ihre p-Werte unter dem üblichen Schwellenwert von 0,05 liegen. Wenn ich jedoch die Koeffizienten betrachte, bin ich mir nicht ganz sicher, was ich mit diesen Ergebnissen anfangen soll. Es scheint, dass diese Variablen, obwohl sie zum Modell beitragen, wenn man die Quotenverhältnisse betrachtet, nicht wirklich viel Vorhersagekraft zu haben scheinen. Bemerkenswert ist, dass ich bei der Berechnung der AUC ungefähr 0,8 erhalten habe.
Kann ich sagen, dass dieses Modell die Sterblichkeit besser vorhersagen kann (z. B. vorhersagen, dass Senioren über den vorgeschriebenen Zeitraum hinaus leben werden) als die Sterblichkeit vorherzusagen?