Meine 5-jährige Erfahrung in der Informatik hat mich gelehrt, dass nichts besser ist als Einfachheit.
Das Konzept der Datensätze "Training / Cross-Validation / Test" ist so einfach. Wenn Sie einen großen Datensatz haben, wird empfohlen, ihn in drei Teile zu teilen:
++ Trainingssatz (60% des Originaldatensatzes): Dieser dient zum Aufbau unseres Vorhersagealgorithmus. Unser Algorithmus versucht, sich auf die Macken der Trainingsdatensätze abzustimmen. In dieser Phase erstellen wir normalerweise mehrere Algorithmen, um deren Leistung während der Cross-Validation-Phase zu vergleichen.
++ Cross-Validation-Satz (20% des ursprünglichen Datensatzes): Dieser Datensatz wird zum Vergleichen der Leistungen der Vorhersagealgorithmen verwendet, die auf der Grundlage des Trainingssatzes erstellt wurden. Wir wählen den Algorithmus mit der besten Leistung.
++ Testsatz (20% des Originaldatensatzes): Jetzt haben wir unseren bevorzugten Vorhersagealgorithmus ausgewählt, wissen aber noch nicht, wie er sich auf völlig unsichtbare Daten in der realen Welt auswirkt. Daher wenden wir unseren ausgewählten Vorhersagealgorithmus auf unser Test-Set an, um zu sehen, wie es sich verhält, damit wir eine Vorstellung von der Leistung unseres Algorithmus bei unsichtbaren Daten erhalten.
Anmerkungen:
-Es ist sehr wichtig zu beachten, dass das Überspringen der Testphase nicht empfohlen wird, da der Algorithmus, der während der Kreuzvalidierungsphase gut funktioniert hat, nicht wirklich bedeutet, dass er wirklich der beste ist, da die Algorithmen basierend auf dem Kreuz verglichen werden -Validierungsset und seine Macken und Geräusche ...
-Während der Testphase soll untersucht werden, wie sich unser endgültiges Modell in der Wildnis verhält. Wenn die Leistung also sehr schlecht ist, sollten wir den gesamten Prozess ab der Trainingsphase wiederholen.