Gute Literatur zur Kreuzvalidierung


Antworten:



5

Wenn eine Kreuzvalidierung für die Modell- / Merkmalsauswahl verwendet werden soll, ist zu berücksichtigen, dass es möglich ist, die Kreuzvalidierungsstatistik zu stark anzupassen und ein Modell mit schlechter Leistung sowie die optimierte Kreuzvalidierungsstatistik zu erhalten kann eine äußerst optimistische Leistungsschätzung sein. Die Auswirkungen können überraschend groß sein. Siehe Ambroise und McLachlan für ein Beispiel dafür in einer Feature - Auswahl Einstellung und Cawley und Talbot für ein Beispiel in einer Modellauswahl Einstellung.


Es ist gut, es zu erwähnen, aber es sollte doppelt gesagt werden, dass dies Beispiele für den Missbrauch oder das Übervertrauen von Lebensläufen sind, nicht einige Nachteile der Methode selbst.

1
In der Tat ist es jedoch eine Art und Weise, wie es häufig missbraucht wird - daher ist es wichtig, sich dessen bewusst zu sein, wenn Sie etwas über Kreuzvalidierung lernen! Eine stärkere Kreuzvalidierung ist häufig eine gute Lösung, dh eine verschachtelte Kreuzvalidierung oder, wie Stone es ausdrückt, eine "Doppelkreuzvalidierung". Das Problem betrifft so ziemlich jedes Merkmal oder Modellauswahlkriterium, das optimiert ist, um ein Modell zu erhalten. Kreuzvalidierung ist in diesem Sinne nichts Besonderes.
Dikran Marsupial

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.