Ich beziehe mich auf die Frage und ihre Antworten: Wie kann die (Wahrscheinlichkeits-) Vorhersagefähigkeit von Modellen verglichen werden, die aus logistischen Regressionen entwickelt wurden? von @Clark Chong und Antworten / Kommentare von @Frank Harrell. und auf die Frage Freiheitsgrade von im Hosmer-Lemeshow-Test und die Kommentare.
Ich habe den Aufsatz von DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "Ein Vergleich von Anpassungstests für das logistische Regressionsmodell", Statistics in Medicine, Band 3, gelesen . 16, 965 & ndash; 980 (1997) .
Nach dem Lesen war ich verwirrt, weil die Frage, auf die ich mich bezog, explizit nach "(Wahrscheinlichkeits-) Vorhersagemöglichkeiten" fragt, die meiner Meinung nach nicht mit den Zielen der oben genannten Anpassungsgütetests übereinstimmen:
Wie die meisten von uns wissen, geht die logistische Regression von einem S-förmigen Zusammenhang zwischen den erklärenden Variablen und der Erfolgswahrscheinlichkeit aus, die funktionale Form für die S-Form ist
Ohne zu behaupten, dass der Hosmer-Lemeshow-Test keine Mängel aufweist, muss meines Erachtens zwischen Tests für die (a) "(Wahrscheinlichkeits-) Vorhersagefähigkeit " und (b) "unterschieden werden. Anpassungsgüte " unterschieden werden.
Ersteres hat zum Ziel, zu testen, ob die Wahrscheinlichkeiten gut vorhergesagt sind, während die Anpassungstests prüfen, ob die oben genannte S-förmige Funktion die "richtige" Funktion ist. Formeller:
- Tests für 'Wahrscheinlichkeitsvorhersage-Fähigkeitstests' haben ein , das angibt, dass die Erfolgswahrscheinlichkeiten vom Modell gut vorhergesagt werden;
- während für Anpassungsgüteprüfungen (siehe Hosmer et al.) die richtige S-förmige funktionale Form. Hosmer et al. Simulationen durchführen, in denen sie die Fähigkeit finden, zwei Arten von Abweichungen von der Null zu erkennen, nämlich dass die Verknüpfungsfunktion falsch ist oder dass der Exponent im Nenner nicht linear ist.
Offensichtlich, wenn die obige Funktion die 'richtige' Funktionsform hat (wenn also die Tests zu dem Schluss kommen, dass wir H 0 akzeptieren können) für den Anpassungstest ), sind die vorhergesagten Wahrscheinlichkeiten natürlich in Ordnung.
Erste Bemerkung
... Die Annahme von ist jedoch eine schwache Schlussfolgerung, wie in Was folgt, wenn wir die Nullhypothese nicht ablehnen? .
Erste Frage
dies jedoch impliziert, dass die Wahrscheinlichkeiten sind nicht gut vorhergesagt?
Zweite Frage
Darüber hinaus möchte ich auf die Schlussfolgerungen von Hosmer et. al; (Ich zitiere aus dem Abstract):
'' Eine Untersuchung der Leistung der Tests, wenn das richtige Modell einen quadratischen Term hat, aber ein Modell, das nur den linearen Term enthält, passt, zeigt, dass das Pearson-Chi-Quadrat, die ungewichtete Quadratsumme, das Hosmer-Lemeshow-Dezil Der geglättete Restquadratsummentest und der Stukel-Score-Test haben eine Leistung von mehr als 50 Prozent, um moderate Abweichungen von der Linearität zu erkennen, wenn die Stichprobengröße 100 beträgt, und eine Leistung von mehr als 90 Prozent für dieselben Alternativen für Stichproben der Größe 500 Alle Tests hatten keine Aussagekraft, als das richtige Modell eine Wechselwirkung zwischen einer dichotomen und einer kontinuierlichen Kovariate aufwies, aber nur das kontinuierliche Kovariatenmodell passte. Die Leistung zum Erkennen eines falsch angegebenen Links war für Proben der Größe 100 schlecht. Für Proben der Größe 500 Stukel ' Der Score-Test von s hatte die beste Leistung, überstieg jedoch nur 50 Prozent, um eine asymmetrische Verbindungsfunktion zu erkennen. Die Leistung des ungewichteten Quadratsummentests zum Erkennen einer falsch spezifizierten Verbindungsfunktion war etwas geringer als bei Stukels Bewertungstest ''.
Kann ich daraus schließen, welcher Test mehr Leistung hat oder dass Hosmer-Lemeshow weniger Leistung hat (um diese spezifischen Anomalien zu erkennen)?
Zweite Bemerkung