Ich weiß, dass ich die Daten in Trainings- / Testsätze aufteilen muss, um auf die Leistung des Klassifikators zugreifen zu können. Aber dies zu lesen :
Bei der Auswertung verschiedener Einstellungen („Hyperparameter“) für Schätzer, z. B. der C-Einstellung, die für eine SVM manuell festgelegt werden muss, besteht weiterhin die Gefahr einer Überanpassung des Testsets, da die Parameter so lange angepasst werden können, bis der Schätzer eine optimale Leistung erbringt. Auf diese Weise kann das Wissen über den Testsatz in das Modell „eindringen“, und Auswertungsmetriken geben keinen Hinweis mehr auf die Generalisierungsleistung. Um dieses Problem zu lösen, kann ein weiterer Teil des Datensatzes als sogenannter "Validierungssatz" ausgegeben werden: Das Training wird mit dem Trainingssatz fortgesetzt, wonach die Auswertung mit dem Validierungssatz erfolgt und wann das Experiment erfolgreich zu sein scheint Die endgültige Bewertung kann am Testgerät vorgenommen werden.
Ich sehe, dass ein weiterer (dritter) Validierungssatz eingeführt wird, der durch eine Überanpassung des Testsatzes während der Hyperparametertuning gerechtfertigt ist.
Das Problem ist, dass ich nicht verstehen kann, wie diese Überanpassung aussehen kann und daher die Rechtfertigung der dritten Menge nicht verstehen kann.