Ist es immer eine gute Idee, nach einer Kreuzvalidierung mit dem vollständigen Datensatz zu trainieren ? Anders ausgedrückt, ist es in Ordnung, mit allen Mustern in meinem Datensatz zu trainieren und nicht zu überprüfen, ob diese bestimmte Passform überpasst ?
Hintergrundinformationen zum Problem:
Sagen wir , ich habe eine Familie von Modellen parametrisiert durch . Sagen Sie auch, dass ich eine Menge von N Datenpunkten habe und eine Modellauswahl mit k-facher Kreuzvalidierung durchführe, um das Modell zu wählen, das die Daten am besten verallgemeinert.
Für die Modellauswahl kann ich eine Suche (z. B. eine Rastersuche) auf indem ich beispielsweise für jeden Kandidaten eine k-fache Kreuzvalidierung durchführe. In jeder Falte der Kreuzvalidierung erhalte ich das erlernte Modell β α .
Der Punkt der Kreuzvalidierung ist, dass ich für jede dieser Faltungen überprüfen kann, ob das erlernte Modell eine Überanpassung aufwies, indem ich es an "unsichtbaren Daten" teste. In Abhängigkeit von den Ergebnissen konnte ich das Modell wählen, das am besten für die Parameter → α am besten gelernt wurde und das sich bei der Kreuzvalidierung in der Rastersuche am besten verallgemeinerte.
Jetzt sagt, dass nach der Modellauswahl , ich möchte verwenden alle die Punkte in meinem Dataset und hoffentlich ein besseres Modell lernen. Dafür ich die Parameter verwenden könnte → & agr; b e s t entsprechend dem Modell , das ich bei der Modellauswahl gewählt haben, und dann nach dem Training auf dem vollständigen Datensatz, würde ich einen bekommen neues gelernt Modell β f u l l . Das Problem ist , dass, wenn ich alle Punkte in meinen Daten - Set für die Ausbildung nutze, kann ich nicht überprüfen , ob dieses neue Modell gelernt β f u l l Überanpassung auf allen unsichtbaren Daten. Was ist der richtige Weg, um dieses Problem zu denken?