Die Wahl der Anzahl K faltet sich unter Berücksichtigung der Lernkurve
Ich möchte argumentieren, dass die Wahl der geeigneten Anzahl von Falten stark von der Form und Position der Lernkurve abhängt, hauptsächlich aufgrund ihres Einflusses auf die Verzerrung . Dieses Argument, das sich auf einen nicht berücksichtigten Lebenslauf erstreckt, stammt größtenteils aus dem Buch "Elemente des statistischen Lernens", Kapitel 7.10, Seite 243.K
Für Diskussionen über den Einfluss von auf die Varianz siehe hierK
Zusammenfassend wird der wahre Vorhersagefehler durch eine fünf- oder zehnfache Kreuzvalidierung überschätzt, wenn die Lernkurve bei der gegebenen Trainingssatzgröße eine beträchtliche Steigung aufweist. Ob diese Tendenz in der Praxis nachteilig ist, hängt vom Ziel ab. Auf der anderen Seite weist eine ausgelassene Kreuzvalidierung eine geringe Verzerrung auf, kann jedoch eine hohe Varianz aufweisen.
Eine intuitive Visualisierung anhand eines Spielzeugbeispiels
Um dieses Argument visuell zu verstehen, betrachten Sie das folgende Spielzeugbeispiel, in dem wir ein Polynom 4. Grades an eine verrauschte Sinuskurve anpassen:
Intuitiv und visuell erwarten wir, dass dieses Modell bei kleinen Datensätzen aufgrund von Überanpassung schlecht abschneidet. Dieses Verhalten spiegelt sich in der Lernkurve wider, in der wir Mittlerer quadratischer Fehler gegen Trainingsgröße zusammen mit 1 Standardabweichung darstellen. Beachten Sie, dass ich mich entschlossen habe, 1 - MSE hier zu zeichnen, um die in ESL Seite 243 verwendete Abbildung zu reproduzieren±1−±
Diskussion über das Argument
Die Leistung des Modells verbessert sich erheblich, da die Trainingsgröße auf 50 Beobachtungen ansteigt. Eine weitere Erhöhung auf beispielsweise 200 bringt nur geringe Vorteile. Betrachten Sie die folgenden zwei Fälle:
Wenn unser Trainingssatz 200 Beobachtungen hätte, würde eine fache Kreuzvalidierung die Leistung über eine Trainingsgröße von 160 schätzen, was praktisch der Leistung für Trainingssatzgröße 200 entspricht. Somit würde die Kreuzvalidierung nicht unter einer starken Verzerrung und einer Erhöhung von bis leiden größere Werte bringen wenig Nutzen ( linkes Diagramm )K5K
Allerdings , wenn der Trainingssatz hat Beobachtungen, - fach Kreuzvalidierung würde die Leistung des Modells schätzt über Sätze von Größe Ausbildung 40 und von der Lernkurve würde dies zu einem verzerrten Ergebnis führen. Daher wird in diesem Fall eine Erhöhung von dazu neigen, die Vorspannung zu verringern. ( rechte Handlung ).5 K505K
[Update] - Kommentare zur Methodik
Den Code für diese Simulation finden Sie hier . Der Ansatz war der folgende:
- Erzeugen Sie 50.000 Punkte aus der Verteilung wobei die wahre Varianz von bekannt istϵsin(x)+ϵϵ
- Iteriere mal (zB 100 oder 200 mal). Ändern Sie bei jeder Iteration den Datensatz, indem Sie Punkte aus der ursprünglichen Verteilung neu abtastenNiN
- Für jeden Datensatz :
i
- Führen Sie eine K-fache Kreuzvalidierung für einen Wert vonK
- Speichern Sie den durchschnittlichen mittleren quadratischen Fehler (MSE) über die K-Falten
- Sobald die Schleife über abgeschlossen ist, berechnen Sie den Mittelwert und die Standardabweichung der MSE über die Datensätze für den gleichen Wert voni KiiK
- Wiederholen Sie die obigen Schritte für alle im Bereich bis zu LOOCV{ 5 , . . . , N }K{5,...,N}
Ein alternativer Ansatz besteht darin, nicht bei jeder Iteration einen neuen Datensatz neu abzutasten und stattdessen jedes Mal denselben Datensatz neu zu mischen . Dies scheint ähnliche Ergebnisse zu liefern.