Training, Testen, Validieren in einem Überlebensanalyseproblem

14

Ich habe hier verschiedene Themen durchgesehen, aber ich glaube nicht, dass meine genaue Frage beantwortet ist.

Ich habe einen Datensatz von ~ 50.000 Studenten und deren Zeit bis zum Abbruch. Ich werde eine proportionale Hazard-Regression mit einer großen Anzahl potenzieller Kovariaten durchführen. Ich werde auch eine logistische Regression bei Studienabbrechern / -aufenthalten durchführen. Das Hauptziel wird die Vorhersage für neue Kohorten von Studenten sein, aber wir haben keinen Grund zu der Annahme, dass sie sich stark von der letztjährigen Kohorte unterscheiden werden.

Normalerweise habe ich keinen solchen Datenluxus und mache Modellanpassungen mit einer Art Bestrafung, aber dieses Mal dachte ich, ich teile int Trainings- und Testdatensätze auf und mache dann die Variablenauswahl für den Trainingssatz. dann Verwenden des Testdatensatzes zum Schätzen von Parametern und Vorhersagekapazität.

Ist das eine gute Strategie? Wenn nicht, was ist besser?

Zitate sind willkommen, aber nicht erforderlich.

cross-validation survival train

— Peter Flom - Wiedereinsetzung von Monica
quelle

8

$n > 20,000$

— Frank Harrell
quelle

Vielen Dank. Würden Sie 80-20 empfehlen? 90-10? Etwas anderes? Irgendwelche Referenzen dazu?

— Peter Flom - Wiedereinsetzung von Monica

2

Mit der Literatur zur optimalen Split-Konfiguration bin ich nicht Schritt gehalten. Es gelten jedoch einige allgemeine Grundsätze. Für die Validierung benötigen Sie ein Muster

n

$n$

3

Ich habe dieses Papier selbst nach der ähnlichen Aufgabe der Kreuzvalidierung von Überlebensvorhersagen durchsucht. Die guten Teile beginnen bei Kapitel 2.

— Cam.Davidson.Pilon
quelle

Dies scheint das Fünffache mit der CV-basierten Schätzung des Modells zu vergleichen (und kommt zu dem Schluss, dass das Fünffache besser ist). Aber ich war mehr daran interessiert, die Daten einfach in zwei Teile aufzuteilen und einen zur Validierung des anderen zu verwenden.

— Peter Flom - Reinstate Monica

1

Die Erkenntnis, die ich daraus gezogen habe, und warum ich mich ursprünglich für diesen Artikel interessierte, war der Umgang mit Zensur in Überlebensvorhersagen, dh welche Verlustfunktion zu verwenden ist (obwohl Sie Ihre Frage noch einmal lesen, haben Sie möglicherweise keine Zensur).

— Cam.Davidson.Pilon

Ich habe Zensur und die Dissertation ist interessant, aber es ist keine Antwort auf meine Frage, glaube ich nicht.

— Peter Flom - Reinstate Monica

1

Inzwischen habe ich dieses Papier gefunden, das nicht nur meine Frage beantwortet, sondern auch eine Methode zum Ermitteln der optimalen Aufteilung für bestimmte Datensätze bietet. Ich fand dies dank der Verwendung des Begriffs "optimale Split - Konfiguration" durch @FrankHarrell, den ich dann googelte.

— Peter Flom - Wiedereinsetzung von Monica
quelle

2

Peter Ich denke, dass das Papier eine falsche Bewertungsregel verwendet hat. Bei Verwendung der richtigen Bewertungsregeln können unterschiedliche Ergebnisse erzielt werden. Das Papier befasste sich auch nicht mit der "Volatilität" der Analyse. Bei kleinen Stichprobengrößen führt die Wiederholung des Vorgangs mit einer anderen zufälligen Aufteilung im Vergleich zur ersten Aufteilung zu sehr unterschiedlichen Modellen und einer sehr unterschiedlichen Genauigkeit. Ich sehe das ist sehr unerwünscht.

— Frank Harrell

@FrankHarrell: Ich verstehe deinen Standpunkt und es ist in der Tat ein sehr guter Standpunkt. Was empfehlen Sie dann zu tun? Führen Sie Monte-Carlo-Läufe mit Zug- / Testfahrten durch, und falten Sie dann bei jedem Lauf den Lebenslauf (oder das Bootstrapping) k-fach? Aber dann würde dies den gesamten Datensatz kontaminieren. Ich sehe keine bessere Lösung, als einen geeigneten Weg zu finden, um den Datensatz in Zug- und Testsätze aufzuteilen (was wären die Kriterien?) Datensatz zum Trainieren und Validieren (mit CV oder Boot) der Modelle (von denen eines (oder mehrere) verwendet werden, um unbekannte Ausgabewerte basierend auf einigen Eingabedaten vorherzusagen).

— Jpcgandre

Ich habe darauf hingewiesen, dass Sie in dem Beitrag gerade eine andere Themenseite hinzugefügt haben.

— Frank Harrell