Projektion von Überlebenskurvenschätzungen in die Zukunft

Nehmen wir an, ich habe eine Überlebenskurve von 0 bis 6000 Tagen mit Kaplan-Meier-Kurven. Wie könnte ich zukünftige Überlebensraten ab 6001 projizieren? Gibt es eine Funktion oder Extrapolationsmethode, die ich verwenden kann?

Unten finden Sie ein Beispiel, das nur zur Veranschaulichung dient:

library(survival)
library(ISwR)
mfit <- survfit(Surv(days, status == 1)~1, data = melanom)

Wie kann man die Kurven darüber hinaus auf das projizieren, was unten beobachtet wird?

Geben Sie hier die Bildbeschreibung ein

BEARBEITEN:

Aufgrund der großartigen Antwort von @CliffAB möchte ich die obige Frage ergänzen:

Was ist, wenn wir davon ausgehen, dass es sich um ein parametrisches Modell (im Vergleich zu nicht parametrischen KM-Kurven) und eine Verteilung handelt, beispielsweise für dieselben Daten oben? Ich nehme eine log normalVerteilung an und führe die Daten aus. Kann ich eine Überlebensfunktion der angenommenen Verteilung verwenden, um die zu projizieren? Daten ?

require(flexsurv)
parm.curves  <- flexsurvreg(Surv(days, status == 1)~1,dist='lnorm',data=melanom)
plot(parm.curves)

Geben Sie hier die Bildbeschreibung ein

Die Daten, an denen ich arbeite, beziehen sich eher auf die Kundenretention und verhalten sich nicht wie die obigen Daten. Es dient nur zur Veranschaulichung. Aber zeigt nur, dass es schwierig ist, diese Art von Problemen zu projizieren. Meine Frage ist, können wir die angenommene Verteilungsüberlebensfunktion verwenden, um zukünftige Überlebensraten zu projizieren?

Vielen Dank

r survival kaplan-meier

— Prognostiker
quelle

Soweit mir bekannt ist, gibt es mit Standard-R-Software keine Möglichkeit, über diesen Punkt hinaus zu extrapolieren.

Und das aus gutem Grund: Die Kaplan-Meier-Kurven machen keine Annahmen über die parametrische Verteilung der Daten. Aus diesem Grund ist die Zuordnung der Wahrscheinlichkeitsmasse über das zuletzt beobachtete Ereignis hinaus völlig gleichgültig.

Ich beschönige hier einige Details, aber nehmen wir an, dass in Ihrem Datensatz nur 30% der Probanden Ereignisse hatten. Es würde Ihnen schwer fallen, das 90% -Perzentil zu schätzen, ohne sehr starke Annahmen über die parametrische Familie zu treffen, aus der die Daten generiert wurden. Wenn Sie also wirklich Schätzungen über t = 6.000 hinaus vornehmen möchten, müssen Sie wahrscheinlich zu einem parametrischen Schätzer wechseln (außerdem sollten Sie diesen Schätzungen sehr skeptisch gegenüberstehen !!).

— Cliff AB
quelle

Danke für deine Antwort. Das Beispiel in meiner Frage dient nur zur Veranschaulichung. Wollen Sie damit sagen, dass es keine Möglichkeit gibt, die Daten zu projizieren, selbst wenn die Kurve stoppt, sagen wir im obigen Beispiel bei 2000?

— Prognostiker

+1 - Angesichts der Art der Frage könnte das OP an "Heilungs" -Überlebensmodellen interessiert sein, die versuchen, den Anteil der überlebenden Personen abzuschätzen. Bei typischen Gefährdungsmodellen geht die Überlebenswahrscheinlichkeit im Zeitlimit immer auf Null.

— Andy W

Die Schwierigkeit wird im Beispiel und im Kommentar von @forecaster gezeigt. Ohne Informationen über t = 2000 hinaus wäre das Überleben durch eine lineare Beziehung zur Zeit gut geeignet, die dann das Überleben zu Zeiten von mehr als 4000 signifikant unterschätzen würde. Wenn Sie die Form der Überlebenskurve (parametrische Darstellung) nicht genau kennen, können Sie dies nicht tun. Wie der große Philosoph Yogi Berra gesagt haben soll: "Es ist schwierig, Vorhersagen zu treffen, insbesondere über die Zukunft."

— EdM

Als Reaktion auf eine Verlängerung über einen bestimmten Zeitpunkt hinaus geben Kaplan-Meier-Kurven nach dem letzten beobachteten Ereignis keine genau definierten Schätzungen. In Ihrem Beispiel lag das zuletzt beobachtete Ereignis also bei t = 6.000. Diese KM-Kurve schätzt, dass etwa 60% der Ereignisse vor t = 6.000 auftreten, ist darüber hinaus jedoch nicht aussagekräftig. Der Versuch, Schätzungen darüber vorzunehmen, was über t = 6.000 hinaus geschieht, ist sehr gefährlich: Sie haben buchstäblich keine Informationen darüber, wann Ereignisse auftreten, da sie nicht um t = 6.000 aufgetreten sind. Ja, in diesem Beispiel gibt es keine zuverlässige Methode zur Vorhersage von mehr als t = 6.000.

— Cliff AB

Vorsichtsmaßnahmen: Die realen Daten folgen möglicherweise nicht der angenommenen Verteilung und daher können Ihre Schätzungen sehr voreingenommen sein! Und es ist schwierig, diese Annahme zu überprüfen, wenn ein Großteil Ihrer Daten zensiert wird. In der Tat würde ich vermuten, dass dies genau das Szenario in Ihren realen Daten ist. Wenn Sie an Kundenbindung interessiert sind, schätzen Sie wahrscheinlich die "Zeit bis zur Kundenrückgabe". Wenn dies der Fall ist, passt die von Andy W erwähnte Heilungsrate möglicherweise viel besser als ein Standardmodell: Es gibt einen Prozentsatz von Kunden, die im Wesentlichen nie zurückkehren, und ehrlich gesagt, das interessiert Sie wahrscheinlich mehr!

— Cliff AB