Zu einem großen Teil können Sie tun, was Sie wollen, vorausgesetzt, Sie halten genügend Daten nach dem Zufallsprinzip bereit, um zu testen, welches Modell Sie basierend auf den beibehaltenen Daten entwickeln. Eine 50% ige Aufteilung kann eine gute Idee sein. Ja, Sie verlieren die Fähigkeit, Beziehungen zu erkennen, aber was Sie gewinnen, ist enorm. nämlich die Fähigkeit, Ihre Arbeit zu replizieren, bevor sie veröffentlicht wird. Unabhängig davon, wie hoch die statistischen Techniken sind, die Sie anwenden, werden Sie schockiert sein, wie viele "signifikante" Prädiktoren bei der Anwendung auf die Bestätigungsdaten völlig unbrauchbar werden.
Bedenken Sie auch, dass "prädiktionsrelevant" mehr bedeutet als ein niedriger p-Wert. Das bedeutet schließlich nur, dass es wahrscheinlich ist, dass eine in diesem bestimmten Datensatz gefundene Beziehung nicht zufällig ist. Für die Vorhersage ist es eigentlich wichtiger, die Variablen zu finden, die einen wesentlichen Einfluss auf den Vorhersagenden ausüben (ohne das Modell zu überpassen). das heißt, um die Variablen zu finden , die wahrscheinlich zu sein „real“ ist und, wenn über einen vernünftigen Bereich von Werten ( und nicht nur die Werte , die in der Probe auftreten können!) variiert, bewirken , dass der predictand merklich verändern. Wenn Sie zum Bestätigen eines Modells über Hold-out-Daten verfügen, können Sie es sich bequemer machen, geringfügig "signifikante" Variablen beizubehalten, die möglicherweise keine niedrigen p-Werte aufweisen.
Aus diesen Gründen (und basierend auf der guten Antwort von chl) sollten diese nicht die einzigen Determinanten für welche Variablen sein, obwohl ich schrittweise Modelle, AIC-Vergleiche und Bonferroni-Korrekturen als sehr nützlich empfunden habe (insbesondere mit Hunderten oder Tausenden von möglichen Prädiktoren im Spiel) Geben Sie Ihr Modell ein. Vergessen Sie auch nicht die theoretischen Anhaltspunkte: Variablen mit starker theoretischer Berechtigung für ein Modell sollten in der Regel beibehalten werden, auch wenn sie nicht signifikant sind, vorausgesetzt, sie erstellen keine schlecht konditionierten Gleichungen ( z. B. Kollinearität). .
Hinweis : Nachdem Sie sich für ein Modell entschieden und dessen Nützlichkeit mit den Hold-Out-Daten bestätigt haben, können Sie die beibehaltenen Daten mit den Hold-Out-Daten für die endgültige Schätzung neu kombinieren. Somit geht nichts an der Genauigkeit verloren, mit der Sie Modellkoeffizienten schätzen können.