Kurze Antwort: Es ist weder falsch noch neu.
Wir haben dieses Validierungsschema vor 15 Jahren unter dem Namen "Set Validation" diskutiert, als wir ein Papier * vorbereitet haben, aber am Ende haben wir es nie wirklich erwähnt, da wir es in der Praxis nicht verwendet fanden.
Wikipedia bezieht sich auf dasselbe Validierungsschema wie die wiederholte Validierung von Stichproben oder die Monte-Carlo-Kreuzvalidierung
Aus theoretischer Sicht war das Konzept für uns von Interesse, weil
- Es handelt sich um eine andere Interpretation derselben Zahlen, die normalerweise als Hold-out bezeichnet werden (nur das Modell, für das die Schätzung verwendet wird, ist unterschiedlich: Hold-out-Schätzungen werden als Leistungsschätzung für genau das getestete Modell verwendet. Dieser Satz oder die Monte-Carlo-Validierung behandelt das getestete Modelle als Ersatzmodelle und interpretiert die gleiche Anzahl wie die Leistungsschätzung für ein Modell, das auf dem gesamten Datensatz basiert - wie dies normalerweise bei Kreuzvalidierungs- oder Out-of-Bootstrap-Validierungsschätzungen der Fall ist).
- und es ist irgendwo dazwischen
- häufigere Kreuzvalidierungstechniken (Resampling mit Ersetzung, Interpretation als Schätzung für das Gesamtdatenmodell),
- Hold-out (siehe oben, gleiche Berechnung + Zahlen, normalerweise ohne N Iterationen / Wiederholungen und unterschiedliche Interpretation)
- und Out-of-Bootstrap (die N Iterationen / Wiederholungen sind typisch für Out-of-Bootstrap, aber ich habe noch nie gesehen, dass dies auf Hold-Out angewendet wird, und es wird [leider] selten mit Kreuzvalidierung durchgeführt).
* Beleites, C.; Baumgartner, R.; Bowman, C.; Somorjai, R.; Steiner, G.; Salzer, R. & Sowa, MG Varianzreduktion bei der Schätzung von Klassifizierungsfehlern unter Verwendung spärlicher Datensätze, Chemom Intell Lab Syst, 79, 91-100 (2005).
Der Fehler "Validierung einstellen" für N = 1 ist in Abb. 1 ausgeblendet. 6 (dh seine Verzerrung + Varianz kann aus den angegebenen Daten rekonstruiert werden, wird jedoch nicht explizit angegeben.)
aber es scheint in Bezug auf die Varianz nicht optimal zu sein. Gibt es Argumente für oder gegen das zweite Verfahren?
Nun, in der obigen Arbeit haben wir festgestellt, dass der Gesamtfehler (Bias² + Varianz) von Out-of-Bootstrap und wiederholter / iterierter facher Kreuzvalidierung ziemlich ähnlich ist (wobei oob eine etwas geringere Varianz, aber eine höhere Bias aufweist - aber wir haben dies nicht getan Überprüfen Sie anschließend, ob / wie viel von diesem Kompromiss auf ein Resampling mit / ohne Ersatz zurückzuführen ist und wie viel auf das unterschiedliche Aufteilungsverhältnis von etwa 1: 2 für oob zurückzuführen ist.k
Beachten Sie jedoch, dass ich von Genauigkeit in Situationen mit kleiner Stichprobengröße spreche, in denen der dominierende Beitrag zur Varianzunsicherheit für alle Resampling-Schemata gleich ist: die begrenzte Anzahl von echten Stichproben zum Testen und das gleiche für oob , Kreuzvalidierung oder Setvalidierung. Durch Iterationen / Wiederholungen können Sie die Varianz reduzieren, die durch die Instabilität der (Ersatz-) Modelle verursacht wird, nicht jedoch die Varianzunsicherheit aufgrund der begrenzten Gesamtstichprobengröße.
Unter der Annahme, dass Sie eine ausreichend große Anzahl von Iterationen / Wiederholungen N ausführen, würde ich daher keine praktisch relevanten Unterschiede in der Leistung dieser Validierungsschemata erwarten.
Ein Validierungsschema passt jedoch möglicherweise besser zu dem Szenario, das Sie durch das Resampling simulieren möchten.