Anpassung für Kovariaten in der ROC-Kurvenanalyse


20

Bei dieser Frage geht es um die Schätzung der Cut-off-Scores in einem mehrdimensionalen Screening-Fragebogen, um einen binären Endpunkt bei Vorhandensein korrelierter Skalen vorherzusagen.

Ich wurde gefragt, ob es wichtig ist, die zugehörigen Unterpunkte zu kontrollieren, wenn Cut-off-Scores für jede Dimension einer Messskala (Persönlichkeitsmerkmale) erstellt werden, die für das Alkoholismus-Screening verwendet werden könnten. Das heißt, in diesem speziellen Fall war die Person nicht daran interessiert, externe Kovariaten (Prädiktoren) anzupassen - was zu einer (partiellen) Fläche unter der kovariatenangepassten ROC-Kurve führt, z. B. (1-2) -, sondern im Wesentlichen an anderen Scores aus dem gleichen Fragebogen, weil sie miteinander korrelieren (zB "Impulsivität" mit "Sensationssuche"). Es ergibt sich eine GLM, die auf der linken Seite die Punktzahl von Interesse (für die wir einen Cut-Off anstreben) und eine andere Punktzahl enthält, die aus demselben Fragebogen berechnet wurde, während auf der rechten Seite der Trinkstatus angezeigt wird.

Zur Verdeutlichung (per @robin-Anfrage) nehmen wir an, wir haben Punkte, sagen (z. B. Angst, Impulsivität, Neurotik, Sensationssuche), und wir wollen einen (dh "positiver Fall", wenn , sonst "negativer Fall") für jeden von ihnen. In der Regel werden andere Risikofaktoren wie Geschlecht oder Alter berücksichtigt, wenn eine solche Grenze festgelegt wird (mithilfe der ROC-Kurvenanalyse). Wie steht es nun mit der Anpassung der Impulsivität (IMP) an Geschlecht, Alter und Empfindung, da bekannt ist, dass SS mit IMP korreliert? Mit anderen Worten, wir hätten einen Grenzwert für IMP, bei dem der Einfluss von Alter, Geschlecht und Angstniveau beseitigt wird.x j t j x j > t jj=4xjtjxj>tj

Abgesehen davon, dass ein Cut-Off so einfach wie möglich bleiben muss, war meine Antwort

Bei Kovariaten würde ich empfehlen, die AUCs mit und ohne Anpassung zu schätzen, um zu sehen, ob sich die prädiktive Leistung erhöht. Hier sind Ihre Kovariaten lediglich andere Unterwerte, die vom selben Messinstrument definiert wurden, und ich bin nie mit einer solchen Situation konfrontiert worden (normalerweise passe ich bekannte Risikofaktoren wie Alter oder Geschlecht an). [...] Da Sie sich auch für prognostische Fragen interessieren (dh für die Screening-Wirksamkeit des Fragebogens), könnte es Sie auch interessieren, den positiven Vorhersagewert (PPV, Wahrscheinlichkeit für Patienten mit positiven Testergebnissen, die korrekt klassifiziert wurden) zu schätzen Sie können Probanden in Abhängigkeit von ihren Unterpunkten in Ihrem Fragebogen als "positiv" oder "negativ" klassifizieren. Beachten Sie jedoch,

Haben Sie ein besseres Verständnis für diese besondere Situation und, wenn möglich, einen Link zu relevanten Dokumenten?

Verweise

  1. Janes, H und Pepe, MS (2008). Anpassen von Covariaten in Studien zu diagnostischen, Screening- oder Prognosemarkern: Ein altes Konzept in einer neuen Umgebung . American Journal of Epidemiology , 168 (1): 89 & ndash; 97.
  2. Janes, H und Pepe, MS (2008). Berücksichtigung von Covariaten in der ROC-Analyse . UW Biostatistics Working Paper Series , Papier 322.

Ich bin kein Experte, aber ich fand den Satz "Kontrolle für zugehörige Unterstriche beim Entwickeln von Grenzwerten für jede Dimension einer Messskala" etwas esoterisch. Können Sie mir noch eine Erklärung geben (ansonsten fiel es mir schwer, die Frage zu verstehen)?
Robin Girard

@robin Ja, im Grunde habe ich gemeint: Wir haben Punkte (z. B. Angst, Impulsivität, Neurotizismus, Empfindungssucht) und wir wollen einen (dh "positiver Fall", wenn , "negativer Fall") "sonst) für jeden von ihnen. In der Regel werden andere Risikofaktoren wie Geschlecht oder Alter berücksichtigt, wenn ein solcher Grenzwert festgelegt wird (mithilfe der ROC-Kurvenanalyse). Wie steht es nun mit der Anpassung der Impulsivität (IMP) an Geschlecht, Alter und Empfindung, da bekannt ist, dass SS mit IMP korreliert? Mit anderen Worten, wir hätten einen Grenzwert für IMP, bei dem der Einfluss von Alter, Geschlecht und Angstniveau beseitigt wird. t j x j > t jj=4tjxj>tj
chl

Wenn das Endziel darin besteht, einen Binärwert vorauszusagen, wenn [korrelierte] Antworten auf Umfragefragen gegeben werden, klingt dies sehr nach einem Standardproblem der binären Klassifizierung. Wäre es angemessen, das so zu sehen? Oder ist es sehr wichtig, "Grenzwerte" zu finden (von denen ich nichts weiß)?
DavidR

@DavidR Nun, die Idee ist, sich für einen Cut-Off-Wert zu entscheiden (lesen Sie "Risiko über einem bestimmten Wert"), der aus statistischer Sicht viele Einschränkungen mit sich bringt, aber die meisten Kliniker sind es gewohnt oder bevorzugen zu arbeiten diesen Weg. (Sorry, dass du deinen Kommentar nicht bemerkt hast!)
chl

Antworten:


7

Die Art und Weise, wie Sie sich die Analyse vorgestellt haben, entspricht nicht der Art und Weise, wie Sie anfangen, darüber nachzudenken. Zunächst lässt sich leicht zeigen, dass Grenzwerte nicht für einzelne Features, sondern für die prognostizierte Gesamtwahrscheinlichkeit gelten , wenn Grenzwerte verwendet werden müssen . Der optimale Grenzwert für eine einzelne Kovariate hängt von allen Ebenen der anderen Kovariaten ab. es kann nicht konstant sein. Zweitens spielen ROC-Kurven keine Rolle für das Erreichen des Ziels, optimale Entscheidungen für ein einzelnes Subjekt zu treffen .

Für den Umgang mit korrelierten Maßstäben gibt es viele Techniken zur Datenreduktion, die hilfreich sein können. Eine davon ist eine formale Redundanzanalyse, bei der jeder Prädiktor nichtlinear von allen anderen Prädiktoren vorhergesagt wird. Dies ist in der redunFunktion im R- HmiscPaket implementiert. Variablenclustering, Hauptkomponentenanalyse und Faktoranalyse sind weitere Möglichkeiten. Der Hauptteil der Analyse sollte jedoch meiner Ansicht nach darin bestehen, ein gutes Wahrscheinlichkeitsmodell (z. B. ein binäres logistisches Modell) zu erstellen.


1
+1 für die wichtige Unterscheidung zwischen Einzel- und Gruppenentscheidung. Ich hätte Ihre Antwort vorwegnehmen sollen, wenn ich Ihre Antwort hier oder eine andere Antwort von Ihnen auf der MedStats- Mailingliste gegeben hätte. Besonders aufschlussreich fand ich auch Ihren Vortrag über direkte Messungen des diagnostischen Nutzens basierend auf diagnostischen Risikomodellen .
chl

Vortrag über direkte Maßnahmen des diagnostischen Nutzens basierend auf diagnostischen Risikomodellen
Epifunky

3

Der Punkt des Artikels von Janes, Pepe über kovariatenbereinigte ROC-Kurven ermöglicht eine flexiblere Interpretation der geschätzten ROC-Kurvenwerte. Dies ist eine Methode zur Schichtung von ROC-Kurven für bestimmte Gruppen in der interessierenden Population. Die geschätzte wahre positive Fraktion (TPF; Äq. Sensitivität) und die wahre negative Fraktion (TNF; Äq. Spezifität) werden als "die Wahrscheinlichkeit eines korrekten Screening-Ergebnisses bei einem Krankheitsstatus von J / N unter Personen derselben [bereinigten Variablen" interpretiert Liste]". Auf einen Blick scheint es, als wollten Sie Ihren Diagnosetest verbessern, indem Sie mehr Marker in Ihr Panel integrieren.

Ein guter Hintergrund, um diese Methoden ein wenig besser zu verstehen, wäre, über das Cox-Proportional-Hazards-Modell zu lesen und sich Pepes Buch "Die statistische Auswertung medizinischer Tests für Klassifikation und ..." anzuschauen. Sie werden bemerken, dass Screening-Zuverlässigkeitsmessungen viele ähnliche Eigenschaften mit einer Überlebenskurve teilen, wobei der angepasste Score als Überlebenszeit betrachtet wird. So wie das Cox-Modell eine Schichtung der Überlebenskurve zulässt, schlagen sie geschichtete Zuverlässigkeitsmessungen vor.

Der Grund, warum dies für uns wichtig ist, könnte im Zusammenhang mit einem Modell mit binären gemischten Effekten gerechtfertigt sein: Angenommen, Sie möchten das Risiko einer Methanabhängigkeit vorhersagen. SES hat einen so offensichtlichen dominierenden Effekt, dass es töricht erscheint, einen diagnostischen Test, der auf persönlichen Verhaltensweisen beruhen könnte, zu evaluieren, ohne sich irgendwie zu schichten. Dies liegt daran, dass [nur mit dieser Rolle], auch wenn eine reiche Person manische und depressive Symptome zeigte, sie wahrscheinlich nie Meth versuchen werden. Eine arme Person würde jedoch ein viel größeres erhöhtes Risiko für solche psychischen Symptome aufweisen (und einen höheren Risikowert). Die grobe Risikoanalyse würde eine sehr schlechte Leistung Ihres Vorhersagemodells zeigen, da die gleichen Unterschiede in zwei Gruppen nicht zuverlässig waren. Wenn Sie jedoch geschichtet sind (reich gegen arm),

Der Punkt der kovariaten Anpassung besteht darin, verschiedene Gruppen aufgrund der geringeren Prävalenz und Interaktion zwischen verschiedenen Schichten im Risikomodell als homogen zu betrachten.


(+1) Das ist eine interessante Antwort, vielen Dank. Mein Hauptanliegen zum Zeitpunkt dieses Schreibens war, dass die Grenzwerte etwas "voneinander abhängig" sein werden. Aber ich schaue in Pepes Buch nach ( in der Zwischenzeit habe ich hier einige Handzettel gefunden ).
chl

Es gibt Probleme mit der Verwendung derselben Daten für die Entwicklung und Auswertung eines medizinischen Tests, die Behebung ist jedoch einfach. Sie sollten eine Art Kreuzvalidierung in Betracht ziehen oder die Daten in Teilmengen "Training" und "Validierung" aufteilen. Dies ist in der Regel ein gültiger Ansatz zur Entwicklung eines diagnostischen / prognostischen / Risiko-Vorhersagemodells.
AdamO
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.