Ich mache eine explorative Datenanalyse (EDA) für einen Datensatz. Dann werde ich einige Features auswählen, um eine abhängige Variable vorherzusagen.
Die Frage ist:
Soll ich die EDA nur für meinen Trainingsdatensatz durchführen? Oder sollte ich die Trainings- und Testdatensätze zusammenfügen und dann die EDA auf beiden durchführen und die Funktionen basierend auf dieser Analyse auswählen?