Ich habe eine Frage zum Cross-Validation-Prozess. Ich bin mitten in einem Kurs des Maschinellen Lernens auf der Cursera. Eines der Themen ist die Kreuzvalidierung. Ich fand es etwas schwierig zu folgen. Ich weiß, warum wir einen Lebenslauf benötigen, weil wir möchten, dass unsere Modelle auch für zukünftige (unbekannte) Daten geeignet sind und der Lebenslauf keine Überanpassung zulässt. Der Prozess selbst ist jedoch verwirrend.
Ich habe verstanden, dass ich Daten in drei Untergruppen aufspalte: Training, Validierung und Test. Train and Validation ist es, die optimale Komplexität eines Modells zu finden. Was ich nicht verstehe, ist die dritte Untergruppe. Ich verstehe, dass ich eine Reihe von Funktionen für das Modell nehme, es trainiere und in der Teilmenge Validierung validiere und nach der Mindestkostenfunktion suche, wenn ich die Struktur ändere. Als ich es gefunden habe, teste ich das Modell in der Teilmenge Test. Wenn ich bereits die minimale Kostenfunktion für die Teilmenge "Validierung" gefunden habe, warum muss ich sie dann erneut in der Teilmenge "Test" testen?
Könnte das bitte jemand für mich klären?
Vielen Dank