In den Elementen des statistischen Lernens habe ich die folgende Aussage gefunden:
Es gibt eine Einschränkung: Erste unbeaufsichtigte Screening-Schritte können durchgeführt werden, bevor die Proben weggelassen werden. Zum Beispiel könnten wir die 1000 Prädiktoren mit der höchsten Varianz über alle 50 Stichproben auswählen, bevor wir mit der Kreuzvalidierung beginnen. Da diese Filterung keine Klassenbezeichnungen umfasst, verschafft sie den Prädiktoren keinen unfairen Vorteil.
Ist das tatsächlich gültig? Ich meine, durch vorheriges Filtern von Attributen ahmen wir die Trainingsdaten / die neue Datenumgebung nicht nach. Ist es also wichtig, dass die von uns durchgeführten Filterungen nicht überwacht werden? Ist es nicht besser, alle Vorverarbeitungsschritte innerhalb des Kreuzvalidierungsprozesses durchzuführen? Wenn dies nicht der Fall ist, bedeutet dies, dass die gesamte unbeaufsichtigte Vorverarbeitung im Voraus durchgeführt werden kann, einschließlich Funktionsnormalisierung / PCA usw. Wenn wir dies jedoch für den gesamten Trainingssatz tun, verlieren wir tatsächlich einige Daten an den Trainingssatz. Ich kann zustimmen, dass diese Unterschiede bei einem relativ stabilen Datensatz höchstwahrscheinlich sehr gering sein sollten - aber das bedeutet nicht, dass sie nicht existieren, oder? Was ist der richtige Weg, um darüber nachzudenken?