Ich versuche, mithilfe eines logistischen Regressionsmodells eine diskrete Zeitüberlebensanalyse durchzuführen, und bin nicht sicher, ob ich den Prozess vollständig verstehe. Ich würde mich sehr über Unterstützung bei ein paar grundlegenden Fragen freuen.
Hier ist der Aufbau:
Ich sehe die Mitgliedschaft in einer Gruppe innerhalb eines Zeitfensters von fünf Jahren. Jedes Mitglied hat eine monatliche Mitgliederliste für jeden Monat, in dem es Mitglied der Gruppe ist. Ich denke an alle Mitglieder, deren Mitgliedschaft während des Fünfjahresfensters begonnen hat (um "Linkszensur" -Probleme mit Mitgliedern zu vermeiden, die früher beigetreten sind). Jeder Datensatz wird nach der Zeit indexiert, wobei die erste Zeit der Monat ist, zu dem das Mitglied beigetreten ist. Ein Mitglied, das zweieinhalb Jahre bleibt, hat dreißig monatliche Aufzeichnungen, die von eins bis dreißig nummeriert sind. Jeder Datensatz erhält außerdem eine binäre Variable, die für den letzten Monat der Mitgliedschaft den Wert Eins und ansonsten den Wert Null hat. Der Wert Eins für die Binärvariable kennzeichnet das Ereignis, dass das Mitglied die Gruppe verlassen hat. Für jedes Mitglied, dessen Mitgliedschaft über das Analysefenster von fünf Jahren hinausgeht,
Das logistische Regressionsmodell wurde erstellt, um die Werte der binären Ereignisvariablen vorherzusagen. So weit, ist es gut. Eine der typischen Methoden zur Bewertung eines binären Vorhersagemodells ist die Messung des Auftriebs an einer Holdout-Stichprobe. Für das logistische Regressionsmodell, das ich zur Vorhersage des Ereignisses zum Ende der Mitgliedschaft erstellt habe, habe ich den Lift für einen Holdout-Datensatz mit einem Verhältnis von Nichtereignissen zu Ereignissen von fünf zu eins berechnet. Ich habe die vorhergesagten Werte in Dezile eingeteilt. Das Dezil mit den höchsten vorhergesagten Werten enthält siebzig Prozent Einsen, eine Steigerung von mehr als vier. Die ersten beiden Dezile enthalten zusammen fünfundsechzig Prozent aller im Holdout. In bestimmten Zusammenhängen würde dies als ein recht anständiges Vorhersagemodell angesehen, aber ich frage mich, ob es gut genug ist, um eine Überlebensanalyse durchzuführen.
Sei die Gefahrenfunktion für Individuum im Monat und sei die Wahrscheinlichkeit, dass Individuum den Monat überlebt .j k S [ j , k ] j k
Hier sind meine grundlegenden Fragen:
Ist die diskrete Gefahrenfunktion die bedingte Wahrscheinlichkeit des Nichtüberlebens (Verlassen der Gruppe) in jedem Monat?
Sind die vorhergesagten Werte aus dem logistischen Regressionsmodell Schätzungen der Gefährdungsfunktion? (dh ist gleich dem vom Modell vorhergesagten Wert für das Individuum im Monat , oder muss etwas mehr getan werden, um Schätzungen der Gefährdungsfunktion zu erhalten?)j k
Ist die Überlebenswahrscheinlichkeit bis zum Monat q für das Individuum gleich dem Produkt aus Eins minus der Gefährdungsfunktion vom ersten Monat bis zum Monat , dh ist ?q S [ j , q ] = ( 1 - h [ j , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ … ⋅ ( 1 - h [ j , q ] )
Ist der Mittelwert von über alle Individuen für jeden Zeitpunkt eine vernünftige Schätzung der mittleren Überlebenswahrscheinlichkeit der Gesamtbevölkerung?j k
Sollte eine grafische Darstellung der durchschnittlichen Überlebenswahrscheinlichkeit der Gesamtbevölkerung pro Monat dem monatlichen Kaplan-Meier-Diagramm ähneln?
Wenn die Antwort auf eine dieser Fragen Nein lautet, habe ich ein schwerwiegendes Missverständnis und könnte wirklich Hilfe / Erklärung gebrauchen. Gibt es auch eine Faustregel dafür, wie gut das binäre Vorhersagemodell sein muss, um ein genaues Überlebensprofil zu erstellen?