Ich habe es mit sehr unausgeglichenen Daten zu tun, daher habe ich den SMOTE-Algorithmus verwendet, um den Datensatz neu abzutasten.
Nach dem SMOTE-Resampling habe ich den neu abgetasteten Datensatz in Trainings- / Testsätze aufgeteilt, wobei ich den Trainingssatz zum Erstellen eines Modells und den Testsatz zum Bewerten des Modells verwendet habe.
Ich mache mir jedoch Sorgen, dass einige Datenpunkte in den Testsätzen tatsächlich von den Datenpunkten im Trainingssatz zittern könnten (dh die Informationen gehen vom Trainingssatz zum Testsatz verloren), sodass der Testsatz kein wirklich sauberer Satz für ist testen.
Hat jemand ähnliche Erfahrungen? Lecken die Informationen wirklich vom Training bis zum Testen? Oder der SMOTE-Algorithmus hat sich tatsächlich darum gekümmert und wir müssen uns darüber keine Sorgen machen?
Vielen Dank!