Ich habe hier verschiedene Themen durchgesehen, aber ich glaube nicht, dass meine genaue Frage beantwortet ist.
Ich habe einen Datensatz von ~ 50.000 Studenten und deren Zeit bis zum Abbruch. Ich werde eine proportionale Hazard-Regression mit einer großen Anzahl potenzieller Kovariaten durchführen. Ich werde auch eine logistische Regression bei Studienabbrechern / -aufenthalten durchführen. Das Hauptziel wird die Vorhersage für neue Kohorten von Studenten sein, aber wir haben keinen Grund zu der Annahme, dass sie sich stark von der letztjährigen Kohorte unterscheiden werden.
Normalerweise habe ich keinen solchen Datenluxus und mache Modellanpassungen mit einer Art Bestrafung, aber dieses Mal dachte ich, ich teile int Trainings- und Testdatensätze auf und mache dann die Variablenauswahl für den Trainingssatz. dann Verwenden des Testdatensatzes zum Schätzen von Parametern und Vorhersagekapazität.
Ist das eine gute Strategie? Wenn nicht, was ist besser?
Zitate sind willkommen, aber nicht erforderlich.