Hold-out wird häufig als Synonym für die Validierung mit unabhängigen Testsätzen verwendet, obwohl es entscheidende Unterschiede zwischen der zufälligen Aufteilung der Daten und der Erstellung eines Validierungsexperiments für unabhängige Tests gibt.
Unabhängige Testsätze können verwendet werden, um die Generalisierungsleistung zu messen, die nicht durch Resampling oder Hold-out-Validierung gemessen werden kann, z. B. die Leistung für unbekannte zukünftige Fälle (= Fälle, die später nach Abschluss des Trainings gemessen werden). Dies ist wichtig, um zu wissen, wie lange ein vorhandenes Modell für neue Daten verwendet werden kann (z. B. Instrumentendrift). Allgemeiner kann dies als Messung der Extrapolationsleistung beschrieben werden, um die Grenzen der Anwendbarkeit zu definieren.
Ein weiteres Szenario, in dem eine Unterbrechung tatsächlich von Vorteil sein kann, ist: Es ist sehr einfach sicherzustellen, dass die Trainings- und Testdaten ordnungsgemäß getrennt sind - viel einfacher als bei einer Validierung durch erneutes Abtasten: z
- Aufteilung entscheiden (zB zufällige Zuordnung von Fällen)
- messen
- Mess- und Referenzdaten der Trainingsfälle => Modellierung \ Weder Mess- noch Referenzdaten der Testfälle werden der modellierenden Person ausgehändigt.
- endgültiges Modell + Messungen der durchgehaltenen Fälle => Vorhersage
- Vergleichen Sie die Vorhersagen mit der Referenz für durchgehaltene Fälle.
Abhängig von dem Grad der Trennung, den Sie benötigen, kann jeder Schritt von einer anderen Person ausgeführt werden. In erster Linie kann durch die Nichtübergabe von Daten (auch nicht von Messwerten) der Testfälle an den Modellierer sichergestellt werden, dass keine Testdaten in den Modellierungsprozess gelangen. Auf einer zweiten Ebene könnten die endgültigen Modell- und Testfallmessungen noch jemand anderem übergeben werden, und so weiter.
Ja, Sie zahlen dafür die geringere Effizienz der Hold-out-Schätzungen im Vergleich zur Resampling-Validierung. Aber ich habe viele Artikel gesehen, in denen ich den Verdacht habe, dass die Validierung des Resamplings Fälle nicht richtig trennt (in meinem Bereich gibt es viele gruppierte / hierarchische / gruppierte Daten).
Ich habe meine Lektion über Datenlecks beim erneuten Abtasten gelernt, indem ich eine Woche nach dem Einreichen ein Manuskript zurückgezogen habe, als ich herausfand, dass mein Aufteilungsverfahren (durch Ausführen von Permutationstests nebenbei) ein Leck aufwies (Tippfehler in der Indexberechnung).
Manchmal ist ein Hold-out effizienter, als jemanden zu finden, der bereit ist, die Zeit für die Überprüfung des Resampling-Codes (z. B. für Cluster-Daten) zu verwenden, um das gleiche Maß an Sicherheit über die Ergebnisse zu erlangen. Allerdings ist es normalerweise nicht effizient, dies zu tun, bevor Sie sich in der Phase befinden, in der Sie beispielsweise die zukünftige Leistung messen müssen (erster Punkt) - mit anderen Worten, wenn Sie ohnehin ein Validierungsexperiment für das vorhandene Modell aufbauen müssen.
OTOH: In Situationen mit geringer Stichprobengröße ist eine Unterbrechung keine Option: Sie müssen genügend Testfälle aushalten, damit die Testergebnisse präzise genug sind, um die erforderlichen Schlussfolgerungen zu ziehen binomiales 95% -Konfidenzintervall, das deutlich unter 50:50 liegt!) Frank Harrell würde auf die Faustregel verweisen, dass mindestens ca. Es werden 100 (Test-) Fälle benötigt, um einen Anteil (wie den Bruchteil korrekt vorhergesagter Fälle) mit einer nützlichen Genauigkeit richtig zu messen.
Update: Es gibt Situationen, in denen eine ordnungsgemäße Aufteilung besonders schwierig ist und eine gegenseitige Validierung nicht mehr möglich ist. Betrachten Sie ein Problem mit einer Reihe von Störfaktoren. Das Aufteilen ist einfach, wenn diese Confounder streng verschachtelt sind (z. B. bei einer Studie mit mehreren Patienten werden von jedem Patienten mehrere Proben genommen und von jeder Probe mehrere Zellen analysiert): Sie teilen auf der höchsten Ebene der Stichprobenhierarchie (patientenbezogen) . Möglicherweise haben Sie jedoch unabhängige Confounder, die nicht ineinander verschachtelt sind, z. B. tägliche Abweichungen oder Abweichungen, die von verschiedenen Experimentatoren verursacht werden, die den Test ausführen. Sie müssen dann sicherstellen, dass die Aufteilung für alle unabhängig istConfounder auf der höchsten Ebene (die verschachtelten Confounder sind automatisch unabhängig). Dies zu beheben ist sehr schwierig, wenn einige Störfaktoren nur während der Studie identifiziert werden und das Entwerfen und Durchführen eines Validierungsexperiments möglicherweise effizienter ist als das Behandeln von Splits, bei denen fast keine Daten für das Training oder das Testen der Ersatzmodelle zurückbleiben.