(1) Es gibt eine umfangreiche Literatur darüber, warum man Vollmodelle eingeschränkten / sparsamen Modellen vorziehen sollte. Mein Verständnis sind nur wenige Gründe, das sparsame Modell zu bevorzugen. Größere Modelle sind jedoch für viele klinische Anwendungen möglicherweise nicht realisierbar.
(2) Soweit ich weiß, werden Diskriminierungs- / Diskriminierungsindizes nicht als Modell- / Variablenauswahlparameter verwendet (sollten nicht verwendet werden). Sie sind nicht für diese Verwendung vorgesehen, und daher gibt es möglicherweise nicht viel Literatur darüber, warum sie nicht für den Modellbau verwendet werden sollten.
(3) Sparsame Modelle können Einschränkungen aufweisen, die nicht ohne weiteres erkennbar sind. Sie sind möglicherweise weniger gut kalibriert als größere Modelle, die externe / interne Gültigkeit kann verringert sein.
(4) Die c-Statistik ist möglicherweise nicht optimal für die Bewertung von Modellen, die das zukünftige Risiko vorhersagen oder Personen in Risikokategorien einteilen. In dieser Einstellung ist die Kalibrierung für die genaue Risikobewertung ebenso wichtig. Beispielsweise kann ein Biomarker mit einer Odds Ratio von 3 nur geringe Auswirkungen auf die Statistik haben, ein erhöhtes Niveau könnte jedoch das geschätzte 10-Jahres-Herz-Kreislauf-Risiko für einen einzelnen Patienten von 8% auf 24% verschieben
Koch NR; Verwendung und Missbrauch der ROC-Kurve in der medizinischen Literatur. Verkehr. 115 2007: 928 & ndash; 935.
(5) AUC / c-Statistik / Diskriminierung ist bekanntermaßen unempfindlich gegenüber signifikanten Prädiktorvariablen. Dies wird in der obigen Cook-Referenz und der motivierenden Kraft hinter der Entwicklung des Netto-Reklassifizierungsindex erörtert. Auch oben in Cook besprochen.
(6) Große Datensätze können immer noch zu größeren Modellen als gewünscht führen, wenn Standardmethoden zur Variablenauswahl verwendet werden. Bei schrittweisen Auswahlverfahren wird häufig ein p-Wert-Grenzwert von 0,05 verwendet. Dieser Wert enthält jedoch nichts Eigenes, was bedeutet, dass Sie diesen Wert auswählen sollten. Bei kleineren Datensätzen kann ein größerer p-Wert (0,2) geeigneter sein, bei größeren Datensätzen kann ein kleinerer p-Wert angemessen sein (aus diesem Grund wurde 0,01 für den GUSTO I-Datensatz verwendet).
(7) Während AIC häufig zur Modellauswahl verwendet wird und in der Literatur besser unterstützt wird, kann BIC in größeren Datensätzen eine gültige Alternative sein. Für die Auswahl des BIC-Modells muss das Chi-Quadrat log (n) überschreiten, daher werden kleinere Modelle in größeren Datensätzen erstellt. (Malven können ähnliche Eigenschaften haben)
(8) Aber wenn Sie nur ein Maximum von 10 oder 12 Variablen wollen, ist die einfachere Lösung ist so etwas wie bestglm
oder leaps
Pakete wurden Sie nur die maximale Anzahl von Variablen einstellen , dass Sie betrachten wollen.
(9) Wenn Sie nur einen Test wünschen, bei dem die beiden Modelle gleich aussehen und sich keine Sorgen um die Details machen, können Sie wahrscheinlich die AUC der beiden Modelle vergleichen. Einige Pakete geben Ihnen sogar einen p-Wert für den Vergleich. Scheint nicht ratsam.
Ambler G (2002) Vereinfachung eines Prognosemodells: eine Simulationsstudie basierend auf klinischen Daten
Cook NR; Verwendung und Missbrauch der ROC-Kurve in der medizinischen Literatur. Verkehr. 115 2007: 928 & ndash; 935.
Gail MH, Pfeiffer RM; Über Kriterien zur Bewertung von Modellen des absoluten Risikos. Biostat. 6 2005: 227 & ndash; 239.
(10) Sobald das Modell erstellt wurde, sind C-Statistiken / Dezimierungsindizes möglicherweise nicht der beste Ansatz für den Vergleich von Modellen und weisen gut dokumentierte Einschränkungen auf. Vergleiche sollten wahrscheinlich auch mindestens die Kalibrierung und den Reklassifizierungsindex umfassen.
Steyerber (2010) Bewertung der Leistung von Vorhersagemodellen: ein Rahmen für einige traditionelle und neuartige Maßnahmen
(11) Es kann eine gute Idee sein, darüber hinauszugehen und entscheidungsanalytische Maßnahmen anzuwenden.
Vickers AJ, Elkin EB. Entscheidungskurvenanalyse: Eine neuartige Methode zur Bewertung von Vorhersagemodellen. Med Entscheidungsfindung. 2006; 26: 565 & ndash; 74.
Bäcker SG, Koch NR, Vickers A, Kramer BS. Verwendung relativer Nutzenkurven zur Bewertung der Risikoprognose. JR Stat Soc A. 2009; 172: 729 & ndash; 48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Bewertung von Markern und Risikoprognosemodellen: Überblick über die Beziehungen zwischen NRI und entscheidungsanalytischen Maßnahmen. Med Entscheidungsfindung. 2013; 33: 490 & ndash; 501
--- Update --- Ich finde den Vickers-Artikel am interessantesten. Trotz vieler Leitartikel wurde dies jedoch noch nicht allgemein akzeptiert. Kann also nicht viel von praktischem Nutzen sein. Die Artikel von Cook und Steyerberg sind viel praktischer.
Niemand mag schrittweise Auswahl. Ich werde mich bestimmt nicht dafür einsetzen. Ich möchte betonen, dass die meisten Kritikpunkte an schrittweise EPV <50 und die Wahl zwischen einem vollständigen oder vordefinierten Modell und einem reduzierten Modell voraussetzen. Wenn EPV> 50 ist und eine Verpflichtung zu einem Reduzierungsmodell besteht, kann die Kosten-Nutzen-Analyse unterschiedlich sein.
Der schwache Gedanke beim Vergleich von C-Statistiken ist, dass sie möglicherweise nicht unterschiedlich sind, und ich erinnere mich an diesen Test, der deutlich unterfordert ist. Aber jetzt kann ich die Referenz nicht finden, also könnte es weit davon entfernt sein.