Ich habe in letzter Zeit viel auf dieser Site (@Aniko, @Dikran Marsupial, @Erik) und anderswo über das Problem der Überanpassung bei der Kreuzvalidierung gelesen - (Smialowski et al. 2010, Bioinformatics, Hastie, Elements of Statistics Learning). Der Vorschlag ist, dass jede überwachte Merkmalsauswahl (unter Verwendung der Korrelation mit Klassenbezeichnungen), die außerhalb der Modellleistungsschätzung unter Verwendung einer Kreuzvalidierung (oder einer anderen Modellschätzmethode wie Bootstrapping) durchgeführt wird, zu einer Überanpassung führen kann.
Dies scheint mir nicht intuitiv zu sein. Wenn Sie ein Feature-Set auswählen und Ihr Modell dann nur anhand der ausgewählten Features mithilfe einer Kreuzvalidierung bewerten , erhalten Sie eine unvoreingenommene Schätzung der allgemeinen Modellleistung für diese Features (dies setzt voraus, dass die untersuchte Stichprobe repräsentativ ist) der Bevölkerung)?
Mit diesem Verfahren kann man natürlich keinen optimalen Funktionsumfang beanspruchen, aber kann man die Leistung des ausgewählten Funktionsumfangs bei unsichtbaren Daten als gültig melden?
Ich bin damit einverstanden, dass die Auswahl von Funktionen auf der Grundlage des gesamten Datensatzes zu Datenlecks zwischen Test- und Zugsätzen führen kann. Wenn der Funktionsumfang nach der anfänglichen Auswahl statisch ist und keine andere Optimierung durchgeführt wird, ist es sicher gültig, die quervalidierten Leistungsmetriken zu melden.
In meinem Fall habe ich 56 Features und 259 Cases und so #cases> #features. Die Merkmale werden aus Sensordaten abgeleitet.
Entschuldigung, wenn meine Frage nicht eindeutig ist, aber dies scheint ein wichtiger Punkt zu sein, der geklärt werden muss.
Bearbeiten: Beim Implementieren der Featureauswahl innerhalb der Kreuzvalidierung für den oben beschriebenen Datensatz (dank der folgenden Antworten) kann ich bestätigen, dass das Auswählen von Features vor der Kreuzvalidierung in diesem Datensatz eine signifikante Auswirkung hattevorspannen. Diese Abweichung / Überanpassung war am größten, wenn dies für eine 3-Klassen-Formulierung im Vergleich zu einer 2-Klassen-Formulierung durchgeführt wurde. Ich denke, die Tatsache, dass ich die schrittweise Regression für die Merkmalsauswahl verwendet habe, hat diese Überanpassung verstärkt. Zu Vergleichszwecken verglich ich mit einem anderen, aber verwandten Datensatz eine vor der Kreuzvalidierung durchgeführte sequentielle Vorwärts-Merkmalsauswahlroutine mit Ergebnissen, die ich zuvor mit der Merkmalsauswahl in CV erhalten hatte. Die Ergebnisse zwischen beiden Methoden unterschieden sich nicht dramatisch. Dies kann bedeuten, dass eine schrittweise Regression anfälliger für eine Überanpassung ist als eine sequenzielle FS oder eine Eigenart dieses Datensatzes.