Zu Beginn würde ich vorschlagen, dass es normalerweise gut ist, sich vor Aussagen zu hüten, dass es nur eine gibtWeg, um etwas zu tun. Das Aufteilen einer erhaltenen Stichprobe in einen "Trainings" - und einen "Test" -Datensatz ist ein gängiger Ansatz in vielen Anwendungen des maschinellen Lernens / der Datenwissenschaft. Oft sind diese Modellierungsansätze weniger an Hypothesentests über einen zugrunde liegenden Datengenerierungsprozess interessiert, dh sie sind tendenziell etwas atheoretisch. Tatsächlich möchten diese Art von Trainings- / Testaufteilungen meistens nur sehen, ob das Modell in Bezug auf die Vorhersageleistung überangepasst ist. Natürlich ist es auch möglich, einen Trainings- / Testansatz zu verwenden, um festzustellen, ob sich ein bestimmtes Modell hinsichtlich der "signifikanten" Parameter repliziert, oder um festzustellen, ob die Parameterschätzungen in beiden Fällen innerhalb der erwarteten Bereiche liegen.
Theoretisch ist die Validierung oder Invalidierung von Modellen das, was die Wissenschaft tun soll. Unabhängige Forscher, die Hypothesen, die Argumente über eine Theorie dafür unterstützen oder widerlegen, warum oder unter welchen Umständen ein beobachtbares Phänomen auftritt, separat untersuchen, generieren und testen - das ist das wissenschaftliche Unternehmen in einer Nussschale (oder zumindest in einem zu langen Satz). Um Ihre Frage zu beantworten, validieren selbst Trainings- / Test-Splits für mich kein Modell. Dies ist das Gewicht jahrelanger Beweise, die von mehreren unabhängigen Forschern gesammelt wurden, die die gleichen Phänomene untersuchen. Ich gebe jedoch zu, dass diese Einstellung einen Unterschied in der Semantik darüber darstellt, was ich unter Modellvalidierung verstehe und was der Begriff Validierung in angewandten Einstellungen bedeutet ...
Abhängig von Ihrem Daten- und Modellierungsansatz ist es aus statistischer Sicht möglicherweise nicht immer angemessen, Ihre Stichprobe in Trainings- und Testsätze aufzuteilen. Beispielsweise kann es besonders schwierig sein, diesen Ansatz auf kleine Stichproben anzuwenden. Darüber hinaus können einige Verteilungen bestimmte Eigenschaften aufweisen, die es schwierig machen, sie selbst bei relativ großen Stichproben zu modellieren. Ihr Fall ohne Inflation entspricht wahrscheinlich dieser letzteren Beschreibung. Wenn das Ziel darin besteht, eine Annäherung an die "Wahrheit" über eine Reihe von Beziehungen oder zugrunde liegenden Prozessen zu erreichen, von denen angenommen wird, dass sie für ein Phänomen verantwortlich sind, werden Sie nicht gut bedient sein, wenn Sie wissentlich einen unterversorgten Ansatz zum Testen einer bestimmten Hypothese wählen. Vielleicht besteht der erste Schritt darin, eine Leistungsanalyse durchzuführen, um festzustellen, ob es wahrscheinlich ist, dass Sie die Feststellung des Interesses an Ihren untergeordneten Daten wiederholen.
Eine andere Möglichkeit besteht darin, mehrere Modelle anzugeben, um festzustellen, ob sie die beobachteten Daten "besser" erklären. Das Ziel hier wäre es, das beste Modell unter einer Reihe vernünftiger Alternativen zu identifizieren. Dies ist ein relatives, kein absolutes Argument, das Sie über Ihr Modell vorbringen würden. Im Wesentlichen geben Sie zu, dass es möglicherweise andere Modelle gibt, die zur Erklärung Ihrer Daten eingesetzt werden könnten, aber Ihr Modell ist das Beste aus den getesteten Alternativen (zumindest hoffen Sie dies). Alle Modelle im Set, einschließlich Ihres hypothetischen Modells, sollten theoretisch geerdet sein. Andernfalls laufen Sie Gefahr, eine Reihe statistischer Strohmänner einzurichten.
Es gibt auch Bayes-Faktoren, mit denen Sie das Gewicht der Beweise berechnen können, die Ihr Modell anhand Ihrer Daten für eine bestimmte Hypothese in Bezug auf alternative Szenarien liefert.
Dies ist alles andere als eine vollständige Liste von Optionen, aber ich hoffe, es hilft. Ich werde jetzt aus der Seifenkiste treten. Denken Sie daran, dass jedes Modell in jeder veröffentlichten Studie über menschliches Verhalten falsch ist. Es gibt fast immer relevante ausgelassene Variablen, nicht modellierte Interaktionen, unvollständig abgetastete Populationen und einfach nur alte Stichprobenfehler, die die zugrunde liegende Wahrheit verschleiern.