Sie haben die Arbeitsweise mit der Kreuzvalidierung in der Tat richtig beschrieben. Tatsächlich haben Sie das Glück, am Ende eine vernünftige Validierung festgelegt zu haben, da häufig eine Kreuzvalidierung verwendet wird, um ein Modell zu optimieren, aber keine "echte" Validierung durchgeführt wird.
Wie @Simon Stelling in seinem Kommentar sagte, führt die Kreuzvalidierung zu geringeren geschätzten Fehlern (was sinnvoll ist, weil Sie die Daten ständig wiederverwenden), aber zum Glück ist dies bei allen Modellen der Fall, so dass Katastrophen ausgeschlossen sind (dh Fehler werden nur reduziert) Bei einem "schlechten" Modell ist die Auswahl des Modells, das bei einem kreuzvalidierten Kriterium am besten abschneidet, in der Regel auch das beste Modell "für den Ernstfall".
Eine Methode, die manchmal verwendet wird, um die niedrigeren Fehler etwas zu korrigieren, insbesondere wenn Sie nach sparsamen Modellen suchen, ist die Auswahl des kleinsten Modells / der einfachsten Methode, für die der kreuzvalidierte Fehler innerhalb einer SD vom (kreuzvalidierten) Optimum liegt. Da es sich bei der Kreuzvalidierung selbst um eine Heuristik handelt, sollte sie mit Bedacht verwendet werden. (Wenn dies eine Option ist: Zeichnen Sie Ihre Fehler anhand Ihrer Optimierungsparameter auf. Dadurch erhalten Sie eine ungefähre Vorstellung davon, ob Sie akzeptable Ergebnisse erzielen.)
Angesichts der Abwärtsneigung der Fehler ist es wichtig , die Fehler oder andere Leistungsindikatoren aus der Kreuzvalidierung nicht zu veröffentlichen, ohne zu erwähnen, dass diese aus der Kreuzvalidierung stammen (obwohl ehrlich gesagt: Ich habe zu viele Veröffentlichungen gesehen, in denen das nicht erwähnt wird Leistungsmessung wurde von der Überprüfung der Leistung auf dem ursprünglichen Datensatz entweder erhalten --- so erwähnensKreuzValidierung Ihrer Ergebnisse wert tatsächlich macht mehr ). Für Sie ist dies kein Problem, da Sie einen Validierungssatz haben.
Eine letzte Warnung: Wenn Ihre Modellanpassung einige enge Konkurrenten hervorbringt, ist es eine gute Idee, deren Leistung im Nachhinein anhand Ihres Validierungssatzes zu überprüfen, aber gründen Sie Ihre endgültige Modellauswahl nicht darauf Gewissensbisse, aber Ihr "endgültiges" Modell muss ausgewählt worden sein, bevor Sie sich jemals das Validierungsset ansehen.
Zu Ihrer zweiten Frage: Ich glaube, Simon hat Ihnen in seinem Kommentar alle Antworten gegeben, die Sie benötigen, aber um das Bild zu vervollständigen: Wie so oft kommt es auf den Kompromiss zwischen Voreingenommenheit und Varianz an. Wenn Sie wissen, dass Sie im Durchschnitt das richtige Ergebnis erzielen (Unparteilichkeit), ist der Preis in der Regel so, dass jede Ihrer individuellen Berechnungen ziemlich weit davon entfernt ist (hohe Varianz). In den alten Tagen war Unparteilichkeit das A und O, in den heutigen Tagen hat man manchmal eine (kleine) Abweichung akzeptiert (so dass Sie nicht einmal wissen, dass der Durchschnitt Ihrer Berechnungen zum richtigen Ergebnis führt), wenn dies der Fall ist führt zu einer geringeren Varianz. Die Erfahrung hat gezeigt, dass das Gleichgewicht bei 10-facher Kreuzvalidierung akzeptabel ist. Für Sie wäre die Verzerrung nur ein Problem für Ihre Modelloptimierung, da Sie das Kriterium anschließend (unvoreingenommen) auf dem Validierungssatz abschätzen können. Daher gibt es kaum einen Grund, die Kreuzvalidierung nicht zu verwenden.