Welche Pseudo-


55

Ich habe SPSSfür ein logistisches Regressionsmodell ausgegeben. Die Ausgabe meldet zwei Maßnahmen für das Modell fit, Cox & Snellund Nagelkerke.

Welche dieser Kennzahlen würden Sie als Faustregel als passend melden?R²

Oder welcher dieser Anpassungsindizes ist derjenige, über den normalerweise in Fachzeitschriften berichtet wird?


Hintergrund: Bei der Regression wird versucht, das Vorhandensein oder Fehlen eines Vogels (Auerhuhn) anhand einiger Umgebungsvariablen (z. B. Steilheit, Vegetationsbedeckung usw.) vorherzusagen. Leider erschien der Vogel nicht sehr oft (35 Treffer bis 468 Fehler), so dass die Regression eher schlecht abschneidet. Cox & Snell ist .09, Nagelkerke, .23.

Das Fach ist Umweltwissenschaften oder Ökologie.


3
Die exzellente UCLA-Statistik-Hilfeseite enthält eine exzellente Seite , auf der die verschiedenen Pseudo- und wie sie miteinander zusammenhängen. R2
gung - Wiedereinsetzung von Monica

Hier sind zwei Links, die einen exakten nicht-parametrischen Algorithmus beschreiben, der die Genauigkeit logistischer Regressionsmodelle maximiert. Wenn Sie diese Methode mit Ihren Daten verwenden, wird die Klassifizierungsleistung Ihres logistischen Regressionsmodells erhöht, wenn es auf die Stichprobe angewendet wird. Beispiel 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Beispiel 2: epm.sagepub.com/content/54/1/73.abstract
user31256

Antworten:


74

Normalerweise würde ich überhaupt nicht melden . Hosmer und Lemeshow erklären in ihrem Lehrbuch Applied Logistic Regression (2nd Ed.), Warum:R2

Im Allgemeinen basieren [ Maße] auf verschiedenen Vergleichen der vorhergesagten Werte aus dem angepassten Modell mit denen aus [dem Basismodell], dem No-Data- oder Intercept-Only-Modell und bewerten daher nicht die Güte von -passen. Wir glauben, dass ein wahres Maß für die Anpassung ausschließlich auf einem Vergleich der beobachteten mit den vorhergesagten Werten des angepassten Modells basiert.R2

[Um p. 164.]

In Bezug auf verschiedene ML-Versionen von , dem "Pseudo " -Stat, wird erwähnt, dass es nicht "für den routinemäßigen Gebrauch empfohlen, da es nicht so intuitiv zu erklären ist", sondern dass sie sich verpflichtet fühlen, es zu beschreiben, weil es verschiedene sind Software-Pakete melden es.R2R2

Sie schließen diese Diskussion schriftlich ab,

... niedrige Werte in der logistischen Regression die Norm sind und dies ein Problem darstellt, wenn ihre Werte einem Publikum gemeldet werden, das daran gewöhnt ist, lineare Regressionswerte zu sehen. ... Wir empfehlen daher [unter Bezugnahme auf die Beispiele im Text] nicht, routinemäßig Werte mit Ergebnissen aus angepassten Logistikmodellen zu veröffentlichen. Sie können jedoch im Modellbildungszustand als Statistik zur Bewertung von Konkurrenzmodellen hilfreich sein.R2R2

[Um p. 167.]

Meine Erfahrung mit einigen großen Logistikmodellen (100.000 bis 300.000 Datensätze, 100 bis 300 erklärende Variablen) war genau so, wie H & L es beschrieben hat. Ich konnte mit meinen Daten einen relativ hohen Wert von bis zu 0,40 erreichen. Dies entsprach einer Klassifizierungsfehlerrate zwischen 3% und 15% (falsch-negative und falsch-positive Werte, ausgewogen, bestätigt anhand von 50% Hold-out-Datensätzen). Wie H & L andeutete, musste ich viel Zeit damit verbringen, den Klienten (einen erfahrenen Berater, der mit vertraut war ) in Bezug auf entwerten und ihn dazu zu bringen, sich auf das zu konzentrieren, was in der Analyse wichtig war (den Klassifizierungsfehler) Preise). Ich kann wärmstens empfehlen, die Ergebnisse Ihrer Analyse ohne Bezugnahme auf , was eher irreführend ist als nicht.R2R2R2R2


1
(+1) Ursprünglich habe ich darüber nachgedacht, meine Antwort (die direkt nach Ihrer kam) zu erweitern, aber Ihre Antwort ist definitiv autark.
Chl

Vielen Dank dafür, hilfreich für ein Projekt, an dem ich gerade arbeite - und macht absolut Sinn.
Brandon Bertelsen

1
@whuber: Ich tendiere auch dazu, mich auf die korrekte Klassifizierung zu konzentrieren. Ich habe jedoch zahlreiche Referenzen in Lehrbüchern und Websites gesehen, die Analysten warnten, ihnen nicht zu vertrauen, und betonten, dass Pseudo-Rsq trotz seiner Einschränkungen eine gerechtere Metrik ist. Ich lese oft etwas, das in meinen eigenen Analysen bis zu einem gewissen Grad bestätigt zu sein scheint: dass mit der Addition eines gegebenen Prädiktors die Pseudo-Rsq steigen könnte (und andere Metriken auf einen Nutzen aus der Addition hindeuten), während die korrekte Klassifizierungsrate und nicht ausreicht dass man letzterem nicht trauen sollte. Hast du darüber nachgedacht?
Rolando2

4
@ rolando2 Ja, das habe ich. Dies wirft die Frage auf, wie weit das Pseudo- steigen sollte, um die Einbeziehung von Variablen zu rechtfertigen. Ich vermute, Ihre "korrekte Klassifizierungsrate" bezieht sich möglicherweise auf die In-Sample- Rate, die natürlich voreingenommen ist. Wenn das stimmt, vergleicht das, was Sie lesen, lediglich zwei minderwertige Statistiken. Die Out-of-Sample- Rate ist ein weitaus nützlicherer Indikator als das Pseudo- . R2R2
whuber

1
+1. Um einen subtilen Teil Ihrer Antwort zu erweitern, erwähnen Sie Klassifizierungsfehlerraten , die plural sind und nicht mit Genauigkeit verwechselt werden sollten . Es gibt viele verschiedene Arten von Berechnungen, die aus einer Verwirrungsmatrix hervorgehen können - Genauigkeit , falsch positive Rate , Präzision usw. - und welche wir berücksichtigen , hängt von der Anwendung ab. Außerdem unterscheiden Sie von der Stichprobe , was sich von der Kreuzvalidierung unterscheidet , aber manchmal damit verwechselt wird.
Wayne

27

Beide Indizes sind ein Maß für die Assoziationsstärke (dh, ob ein Prädiktor wie bei einem LR-Test mit dem Ergebnis assoziiert ist) und können zur Quantifizierung der Vorhersagefähigkeit oder der Modellleistung verwendet werden. Ein einzelner Prädiktor kann einen signifikanten Einfluss auf das Ergebnis haben, ist jedoch möglicherweise nicht unbedingt für die Vorhersage der individuellen Reaktion von Nutzen. Daher muss die Modellleistung als Ganzes bewertet werden (bezogen auf das Nullmodell). Die Nagelkerke ist nützlich, weil sie einen Maximalwert von 1,0 hat, wie Srikant sagte. Dies ist nur eine normalisierte Version des berechnet aus dem WahrscheinlichkeitsverhältnisR 2 R 2 LR = 1 - exp ( - LR / n )R2R2RLR2=1exp(LR/n), die im Zusammenhang mit der Wald-Statistik für die Gesamtassoziation steht, wie ursprünglich von Cox und Snell vorgeschlagen. Andere Indikatoren für die Vorhersagefähigkeit sind der Brier-Score, der C-Index (Konkordanzwahrscheinlichkeit oder ROC-Bereich) oder Somers 'D, wobei die beiden letzteren ein besseres Maß für die Vorhersageunterscheidung liefern.

Die einzigen in der logistischen Regression getroffenen Annahmen sind die der Linearität und Additivität (+ Unabhängigkeit). Obwohl viele globale Anpassungstests (wie der Hosmer & Lemeshow Test, siehe aber meinen Kommentar zu @onestop) vorgeschlagen wurden, fehlt ihnen im Allgemeinen die Leistung. Zur Beurteilung der Modellanpassung sollten visuelle Kriterien (geschichtete Schätzungen, nichtparametrische Glättung) herangezogen werden, mit deren Hilfe lokale oder globale Abweichungen zwischen vorhergesagten und beobachteten Ergebnissen (z. B. Nichtlinearität oder Interaktion) festgestellt werden können. Dies wird in Harrells RMS weitgehend erläutert Handout . Zu einem verwandten Thema (Kalibrierungstests), Steyerberg ( Clinical Prediction Modelsχ2, 2009) weist auf denselben Ansatz zur Bewertung der Übereinstimmung zwischen beobachteten Ergebnissen und vorhergesagten Wahrscheinlichkeiten hin:

Die Kalibrierung bezieht sich auf die Anpassungsgüte, die sich auf die Fähigkeit eines Modells bezieht, auf einen bestimmten Datensatz zu passen. Typischerweise gibt es keinen einzelnen Anpassungstest, der gegen alle Arten von Anpassungsfehlern eines Vorhersagemodells eine gute Leistung aufweist. Beispiele für fehlende Anpassung sind fehlende Nichtlinearitäten, Wechselwirkungen oder eine unangemessene Verknüpfungsfunktion zwischen dem linearen Prädiktor und dem Ergebnis. Die Anpassungsgüte kann mit einer Statistik getestet werden . (S. 274)χ2

Er schlägt auch vor, sich auf den absoluten Unterschied zwischen geglätteten beobachteten Ergebnissen und vorhergesagten Wahrscheinlichkeiten entweder visuell oder mit der sogenannten Harrell-E-Statistik zu verlassen.

Weitere Einzelheiten finden Sie in Harrells Buch " Regression Modeling Strategies" (S. 203-205, 230-244, 247-249). Für eine neuere Diskussion siehe auch

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T., Gonen, M., Obuchowski, N., Pencina, MJ und Kattan, MW (2010). Bewertung der Leistung von Vorhersagemodellen, ein Rahmen für traditionelle und neuartige Maßnahmen . Epidemiology , 21 (1) , 128 & ndash; 138.


Könnten Sie die Unterscheidung zwischen "Passgenauigkeit" und Assoziationsstärke oder Vorhersagefähigkeit erläutern?
Andy W

@ Andy Danke für den Hinweis. Ich stelle danach fest, dass mein erster Satz in der Tat nicht gut klingt. Ich werde meine Antwort aktualisieren. Bitte lassen Sie mich wissen, ob dies für Sie in Ordnung ist.
Chl

Danke für das Update und es verdeutlicht den Unterschied.
Andy W

21

Ich hätte gedacht, dass das Hauptproblem bei jeder Art von Maß für die logistische Regression darin besteht, dass es sich um ein Modell handelt, dessen Rauschwert bekannt ist. Dies ist anders als bei der linearen Standardregression, bei der der Rauschpegel normalerweise als unbekannt behandelt wird. Denn wir können eine glm-Wahrscheinlichkeitsdichtefunktion schreiben als:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Wobei Bekannte Funktionen sind und für die Umkehrverbindungsfunktion . Definieren wir die üblichen GLM-Abweichungsreste alsb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Wir haben (über das Wahrscheinlichkeitsverhältnis Chi-Quadrat, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Wobei die Dimension von . Für die logistische Regression gilt , was bekannt ist. Auf diese Weise können wir einen bestimmten Restwert festlegen, der "akzeptabel" oder "vernünftig" ist. Dies kann normalerweise nicht für die OLS-Regression durchgeführt werden (es sei denn, Sie verfügen über vorherige Informationen zum Rauschen). Wir erwarten nämlich, dass jeder Abweichungsrest ungefähr . Zu viele und es ist wahrscheinlich, dass wichtige Effekte im Modell fehlen ( ); zu viele und es ist wahrscheinlich, dass das Modell redundante oder unechte Effekte aufweist (Überanpassung). (Dies kann auch eine falsche Modellangabe bedeuten.)pβϕ=11di21di21

Dies bedeutet nun, dass das Problem für das Pseudo- besteht, dass es nicht berücksichtigt, dass das Niveau der binomialen Variation vorhersehbar ist (vorausgesetzt, die binomiale Fehlerstruktur wird nicht in Frage gestellt). Obwohl Nagelkerke von bis , ist es dennoch nicht richtig skaliert. Außerdem kann ich nicht erkennen, warum diese als Pseudo- wenn sie nicht den üblichen wenn Sie eine "GLM" mit einem Identitätslink und einem normalen Fehler einfügen. Zum Beispiel ist das äquivalente Cox-Snell-R-Quadrat für den normalen Fehler (unter Verwendung der REML-Varianzschätzung) gegeben durch:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Welches sicherlich seltsam aussieht.

Ich denke, das bessere Maß für die Anpassungsgüte ist die Summe der Abweichungsreste, . Dies liegt hauptsächlich daran, dass wir ein Ziel haben, auf das wir zielen müssen.χ2


+1 Gute Darstellung der Probleme, auf die in den Kommentaren nach Srikants Antwort hingewiesen wird .
Whuber

Unter der Annahme, dass eine binomiale GLM unter Verwendung iterativ neu gewichteter kleinster Fehlerquadrate angepasst werden würde, warum könnte man als Maß für die Qualität der Anpassung nicht das R2 der gewichteten kleinsten Fehlerquadratanpassung der letzten IRLS-Iteration angeben, mit der die GLM angepasst wurde? Wie in stats.stackexchange.com/questions/412580/… ?
Tom Wenseleers

16

Ich fand Tue Tjurs Kurzbeitrag "Bestimmungskoeffizienten in logistischen Regressionsmodellen - Ein neuer Vorschlag: Der Diskriminierungskoeffizient" (2009, The American Statistician ) zu verschiedenen Vorschlägen für einen Bestimmungskoeffizienten in logistischen Modellen ziemlich aufschlussreich. Er macht einen guten Job, indem er Vor- und Nachteile hervorhebt - und bietet natürlich eine neue Definition. Sehr zu empfehlen (obwohl ich selbst keinen Favoriten habe).


1
Vielen Dank für den Hinweis auf das Papier; Irgendwie habe ich es verpasst (und es erschien, als ich mitten in einem großen logistischen Regressionsprojekt war!).
whuber

3
Für den Datensatz ist diese neue Definition , was der mittlere vorhergesagte Wert für die Antworten minus dem mittleren vorhergesagten Wert für die Antworten ist. Sie kann zwischen und . Tjur weist das Nagelkerke-Pseudo , schlägt aber vor, dass ihm die "intuitive Anziehungskraft" von fehlt . 1 0 0 1 R 2 DD=π^¯1π^¯01001R2D
Whuber

8

Ich wollte auch 'keiner von ihnen' sagen, also habe ich Whubers Antwort positiv bewertet.

Hosmer & Lemeshow kritisierten nicht nur R ^ 2, sondern schlugen auch ein alternatives Maß für die Anpassung an die logistische Regression vor, das manchmal nützlich ist. Dies basiert auf der Aufteilung der Daten in (sagen wir) 10 Gruppen gleicher Größe (oder so nahe wie möglich) durch Ordnen nach der vorhergesagten Wahrscheinlichkeit (oder gleichwertig dem linearen Prädiktor) und anschließendem Vergleichen der beobachteten mit der erwarteten Anzahl positiver Antworten in jeder Gruppe und Durchführen eines Chi-Quadrat-Tests. Dieser Hosmer-Lemeshow-Anpassungstest ist in den meisten Statistik-Softwarepaketen implementiert.


3
Der ursprüngliche HL GoF-Test ist nicht sehr leistungsfähig, da er von der Kategorisierung der kontinuierlichen Prädiktorskala in eine beliebige Anzahl von Gruppen abhängt. H & L schlug vor, das Dezilieren in Betracht zu ziehen, dies hängt jedoch offensichtlich von der Stichprobengröße ab. Unter bestimmten Umständen (z. B. bei IRT-Modellen) haben Sie häufig nur sehr wenige Personen an einem oder beiden Enden der Skala, sodass die Grenzwerte ungleichmäßig verteilt sind. Siehe Vergleich von Anpassungstests für das logistische Regressionsmodell, Stat. Med. 1997 16 (9): 965, j.mp./aV2W6Iχ2
chl

Danke Chi, das ist ein nützlicher Hinweis, obwohl Ihr j.mp-Link mich zu einer BiblioInserm-Anmeldeaufforderung führte. Hier ist ein Doi-basierter Link: dx.doi.org/10.1002/…
am

Entschuldigung für den falschen Link ... Ich erinnere mich an Frank Harrells DesignPaket mit dem alternativen H & L 1 df-Test.
Chl

3

Ich würde die Nagelkerke vorziehen, da diese Modellanpassung 1 erreicht, wenn das Modell perfekt passt, sodass der Leser ein Gefühl dafür hat, wie weit Ihr Modell von der perfekten Passform entfernt ist. Der Cox & Shell erreicht keine 1 für eine perfekte Modellanpassung und daher ist es etwas schwieriger, einen Wert von 0,09 zu interpretieren. In dieser URL finden Sie weitere Informationen zu Pseudo RSquared mit Erläuterungen zu verschiedenen Arten von Passungen.


8
Eine "perfekte Anpassung" ist bei keiner realistischen logistischen Regression zu erreichen, so dass es unfair erscheint, sie als Referenz oder Standard zu verwenden.
whuber

1
@whuber Richtig, aber Sie können den Standard verwenden, um die relative Leistung zweier konkurrierender Modelle zu vergleichen. Ihre Punkte niedriger R ^ 2 in Ihrer Antwort und ihre Auswirkungen sind gute Punkte , aber wenn Sie haben (zB Rezensenten es etc verlangen) irgendeine Form von R verwenden ^ 2 dann Nagelkerke vorzuziehen ist.

1
@Skridant Ja, immer noch das Problem der Rezensenten, die überall und Bonferroni Korrektur sehen wollen ...R2
chl

@Srikant, @chl: Eine zynische Lektüre dieses Threads würde darauf hindeuten, nur den größten R ^ 2 unter all den Software-Berichten auszuwählen ;-).
whuber

2
@chl Es ist natürlich notwendig, den Rezensenten / Kunden einen Push-back anzubieten, aber manchmal müssen wir auch pragmatisch sein. Wenn die Leser einen niedrigen R ^ 2-Wert nicht als Mangel an angemessener Modellleistung interpretieren, werden die von @whuber aufgeworfenen Probleme bis zu einem gewissen Grad gemildert.

3

Trotz der Argumente gegen die Verwendung von Pseudo-R-Quadraten werden manche Menschen aus verschiedenen Gründen sie zumindest zu bestimmten Zeiten weiterhin verwenden wollen. Was ich aus meinen Lesungen verinnerlicht habe (und es tut mir leid, dass ich im Moment keine Zitate liefern kann), ist das

  • wenn sowohl C & S als auch Nag. sind unter 0,5, C & S wird ein besseres Maß sein;
    wenn beide über 0,5 sind, Nag. werden; und
    wenn sie .5 überspannen, stechen Sie.

Auch eine Formel, deren Ergebnisse häufig zwischen diesen beiden liegen, wird von Scott Menard in Applied Logistic Regression Analysis (Sage) erwähnt

[-2LL0 - (-2LL1)]/-2LL0.

Dies wird in der folgenden Tabelle mit "L" bezeichnet.

Bildbeschreibung hier eingeben


Was zeigt dieses Bild (wofür steht die horizontale Achse)? Inwiefern unterscheidet sich die letzte Formel (die wie eine skalierte Wahrscheinlichkeitsverhältnisstatistik aussieht) genau von Nagelkerke ? R2
chl

Analyse Nr .: Ich habe verschiedene Analysen mit unterschiedlichen Datensätzen versucht. Ich habe die Nagelkerke-Formel nicht zur Hand, aber ich wette, sie ist sofort verfügbar.
Rolando2

Paul Allison deckt die Nagelkerke Formel, die eine nach oben angepasst Cox & Snell Formel, bei statisticalhorizons.com/2013/02 . Nach dem Lesen dieses Blogs und im Allgemeinen in den zwei bis drei Jahren seit dem größten Teil dieser Diskussion bin ich mehr davon überzeugt, dass die Unterschätzung von Cox & Snell die Varianz erklärt und dass es mir besser geht, C & S und das Nagelkerke-Ergebnis zu mitteln.
Rolando2
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.