Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der besten Hyperparameter mit dem Trainingssatz und wenden das trainierte Modell auf den Test an, um die Leistung zu erhalten.
Wenn wir einen kleinen Datensatz haben, können wir keinen Trainings- und Testsatz erstellen (nicht genügend Proben). Daher führen wir eine Kreuzvalidierung durch (k-fach, Auslassen usw.), um die Modellleistung zu bewerten.
Ich habe gesehen, dass eine verschachtelte Kreuzvalidierung (ob wiederholt oder geschichtet) bei der Einstellung eines kleinen Datensatzes verwendet wurde, dh um eine allgemeine Modellleistung zu generieren und gleichzeitig die Parameterauswahl zu optimieren. Meine Frage ist, wie kann ich die besten Hyperparameter bei der verschachtelten Kreuzvalidierung erhalten (wiederholt / nicht wiederholt)? Ich bin daran interessiert, dies, wenn möglich, in Scikit-Learn zu tun. Ich bin etwas verwirrt darüber, wie es geht.
Ich habe mehrere Ressourcen gelesen, aber keine hat mir die endgültige Antwort auf diese Frage gegeben:
Verschachtelte Kreuzvalidierung für die Modellauswahl
Verschachtelte Kreuzvalidierung und Feature-Auswahl: Wann wird die Feature-Auswahl durchgeführt?