Hat das Normalisieren von Daten (um einen Mittelwert von Null und eine Standardabweichung von Eins zu haben) vor dem Durchführen einer wiederholten Kreuzvalidierung eine negative Konsequenz, wie beispielsweise eine Überanpassung?
Hinweis: Dies gilt für eine Situation, in der #cases> total #features ist
Ich transformiere einige meiner Daten mithilfe einer Protokolltransformation und normalisiere dann alle Daten wie oben beschrieben. Ich führe dann eine Merkmalsauswahl durch. Als Nächstes wende ich die ausgewählten Features und normalisierten Daten auf eine wiederholte 10-fache Kreuzvalidierung an, um zu versuchen, die Leistung des generalisierten Klassifikators abzuschätzen, und befürchte, dass die Verwendung aller Daten zur Normalisierung möglicherweise nicht angemessen ist. Sollte ich die Testdaten für jede Falte mit den aus den Trainingsdaten für diese Falte erhaltenen Normalisierungsdaten normalisieren?
Alle Meinungen dankbar erhalten! Entschuldigung, wenn diese Frage offensichtlich erscheint.
Bearbeiten: Beim Testen (in Übereinstimmung mit den nachstehenden Vorschlägen) stellte ich fest, dass die Normalisierung vor dem Lebenslauf im Vergleich zur Normalisierung innerhalb des Lebenslaufs keinen großen Leistungsunterschied darstellt.