Anpassungstest in der logistischen Regression; Welche "Passform" möchten wir testen?


12

Ich beziehe mich auf die Frage und ihre Antworten: Wie kann die (Wahrscheinlichkeits-) Vorhersagefähigkeit von Modellen verglichen werden, die aus logistischen Regressionen entwickelt wurden? von @Clark Chong und Antworten / Kommentare von @Frank Harrell. und auf die Frage Freiheitsgrade von χ2 im Hosmer-Lemeshow-Test und die Kommentare.

Ich habe den Aufsatz von DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "Ein Vergleich von Anpassungstests für das logistische Regressionsmodell", Statistics in Medicine, Band 3, gelesen . 16, 965 & ndash; 980 (1997) .

Nach dem Lesen war ich verwirrt, weil die Frage, auf die ich mich bezog, explizit nach "(Wahrscheinlichkeits-) Vorhersagemöglichkeiten" fragt, die meiner Meinung nach nicht mit den Zielen der oben genannten Anpassungsgütetests übereinstimmen:

Wie die meisten von uns wissen, geht die logistische Regression von einem S-förmigen Zusammenhang zwischen den erklärenden Variablen und der Erfolgswahrscheinlichkeit aus, die funktionale Form für die S-Form ist

P(y=1|xi)=11+e(β0+iβixi)

Ohne zu behaupten, dass der Hosmer-Lemeshow-Test keine Mängel aufweist, muss meines Erachtens zwischen Tests für die (a) "(Wahrscheinlichkeits-) Vorhersagefähigkeit " und (b) "unterschieden werden. Anpassungsgüte " unterschieden werden.

Ersteres hat zum Ziel, zu testen, ob die Wahrscheinlichkeiten gut vorhergesagt sind, während die Anpassungstests prüfen, ob die oben genannte S-förmige Funktion die "richtige" Funktion ist. Formeller:

  1. Tests für 'Wahrscheinlichkeitsvorhersage-Fähigkeitstests' haben ein H0 , das angibt, dass die Erfolgswahrscheinlichkeiten vom Modell gut vorhergesagt werden;
  2. während für Anpassungsgüteprüfungen H0 (siehe Hosmer et al.) die richtige S-förmige funktionale Form. Hosmer et al. Simulationen durchführen, in denen sie die Fähigkeit finden, zwei Arten von Abweichungen von der Null zu erkennen, nämlich dass die Verknüpfungsfunktion falsch ist oder dass der Exponent im Nenner nicht linear ist.

Offensichtlich, wenn die obige Funktion die 'richtige' Funktionsform hat (wenn also die Tests zu dem Schluss kommen, dass wir H 0 akzeptieren können)H0 für den Anpassungstest ), sind die vorhergesagten Wahrscheinlichkeiten natürlich in Ordnung.

Erste Bemerkung

... Die Annahme von ist jedoch eine schwache Schlussfolgerung, wie in Was folgt, wenn wir die Nullhypothese nicht ablehnen? .H0

Erste Frage

H0 dies jedoch impliziert, dass die Wahrscheinlichkeiten sind nicht gut vorhergesagt?

Zweite Frage

Darüber hinaus möchte ich auf die Schlussfolgerungen von Hosmer et. al; (Ich zitiere aus dem Abstract):

'' Eine Untersuchung der Leistung der Tests, wenn das richtige Modell einen quadratischen Term hat, aber ein Modell, das nur den linearen Term enthält, passt, zeigt, dass das Pearson-Chi-Quadrat, die ungewichtete Quadratsumme, das Hosmer-Lemeshow-Dezil Der geglättete Restquadratsummentest und der Stukel-Score-Test haben eine Leistung von mehr als 50 Prozent, um moderate Abweichungen von der Linearität zu erkennen, wenn die Stichprobengröße 100 beträgt, und eine Leistung von mehr als 90 Prozent für dieselben Alternativen für Stichproben der Größe 500 Alle Tests hatten keine Aussagekraft, als das richtige Modell eine Wechselwirkung zwischen einer dichotomen und einer kontinuierlichen Kovariate aufwies, aber nur das kontinuierliche Kovariatenmodell passte. Die Leistung zum Erkennen eines falsch angegebenen Links war für Proben der Größe 100 schlecht. Für Proben der Größe 500 Stukel ' Der Score-Test von s hatte die beste Leistung, überstieg jedoch nur 50 Prozent, um eine asymmetrische Verbindungsfunktion zu erkennen. Die Leistung des ungewichteten Quadratsummentests zum Erkennen einer falsch spezifizierten Verbindungsfunktion war etwas geringer als bei Stukels Bewertungstest ''.

Kann ich daraus schließen, welcher Test mehr Leistung hat oder dass Hosmer-Lemeshow weniger Leistung hat (um diese spezifischen Anomalien zu erkennen)?

Zweite Bemerkung

H1H1

Antworten:


5

R2

Bei Anpassungsgütetests soll eine angemessene Leistung für eine Vielzahl von Alternativen erzielt werden, nicht eine hohe Leistung für eine bestimmte Alternative. Daher tendieren Menschen, die die Leistung verschiedener Tests vergleichen, dazu, einen pragmatischen Ansatz zu wählen, indem sie einige Alternativen auswählen, von denen angenommen wird, dass sie für potenzielle Benutzer von besonderem Interesse sind (siehe zum Beispiel die häufig zitierten Stephens (1974), "EDF Statistics for goodness of fit" und einige Vergleiche ", JASA, 69 , 347 ). Man kann nicht schlussfolgern, dass ein Test gegenüber allen möglichen Alternativen leistungsfähiger ist als ein anderer, weil er gegenüber einigen leistungsfähiger ist.


1
In einigen Fällen kann gezeigt werden, dass ein Test „einheitlich leistungsfähiger“ ist, was bedeutet, dass er für alle möglichen Alternativen leistungsfähiger ist (vgl. Karlin / Rubin-Theorem). Aber Sie haben Recht, dass dies nur in Ausnahmefällen der Fall ist und sicherlich nicht im Rahmen des Hosmer-Lemeshow-Tests.

4
Im Allgemeinen wird "Anpassungsgüte" meiner Meinung nach zu stark betont. Eine bessere Alternative ist es, das Modell vorne fit zu machen. Hierzu werden Regressionssplines verwendet, um Linearitätsannahmen zu lockern und sinnvolle Interaktionen einzuschließen.
Frank Harrell

2
@fcoppens: Guter Punkt! Sie erhalten UMP-Tests nur, wenn Sie die in Betracht gezogenen Alternativen stark auf die Werte eines skalaren Parameters beschränken, und dies auch dann nicht immer. Selbst wenn man bedenkt, ob ein Test unzulässig ist - es gibt mindestens einen anderen Test, der unter allen Alternativen eine größere Aussagekraft hat -, müsste man die Alternativen für einen allgemeinen GOF-Test zu stark einschränken.
Scortchi
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.