Für jeden Datensatz in meinen Datensätzen habe ich die folgenden Informationen
wo Merkmale sind, ist 1 , wenn das Zielereignis auftritt , und 0 sonst, und ist die Zeitmarke für das Ereignis aufgetreten ist . Insbesondere könnte fehlen, wenn kein Ereignis vorliegt oder der Zeitpunkt für das Ende der Nachverfolgung festgelegt ist.
Ich möchte für jeden Datensatz in meinem Datensatz einen Risikoindex berechnen.
Ich dachte an ein Klassifizierungsmodell, das die Merkmale , um die Klasse vorherzusagen . Allerdings ist wichtig: wenn das Ereignis wahrscheinlich bald das Risiko auftritt sollte höher sein.
Deshalb sollte eine Überlebensanalyse für dieses Problem geeignet sein. Ich brauche nicht die vollständige Schätzung von sondern nur einen einzelnen Index, der das Risiko für einen einzelnen Datensatz darstellt.
Die mittlere Überlebenszeit, die für jeden Datensatz berechnet werden kann, scheint ein guter Risikoindex zu sein - je niedriger das Risiko ist.
Meine Frage ist:
- Ist die Überlebensanalyse für meine Zwecke geeignet?
- Wie kann ich die Leistung meines Modells bewerten?
Zu Frage (2): Ich möchte zum Beispiel den Harrell- Index verwenden, bin mir aber nicht sicher, welches vorhergesagte Ergebnis zur Berechnung verwendet wird. Aus Harrells Buch Regression Modeling Strategies Seite 247:
Der Index [...] wird berechnet, indem alle möglichen Subjektpaare so genommen werden, dass ein Subjekt antwortete und das andere nicht. Der Index ist der Anteil solcher Paare, wobei der Antwortende eine höhere vorhergesagte Antwortwahrscheinlichkeit aufweist als der Nicht-Antwortende.
Wenn sich die Überlebensanalyse als richtige Wahl herausstellt, sollte es meiner Meinung nach einfach sein, eine Standardmethode zu verwenden, um zeitvariable Kovariaten einzuführen .