In seiner Arbeit Lineare Modellauswahl durch Kreuzvalidierung zeigt Jun Shao, dass für das Problem der Variablenauswahl bei der multivariaten linearen Regression die Methode der ausschließlichen Kreuzvalidierung (LOOCV) „asymptotisch inkonsistent“ ist. Im Klartext werden tendenziell Modelle mit zu vielen Variablen ausgewählt. In einer Simulationsstudie zeigte Shao, dass LOOCV selbst bei nur 40 Beobachtungen andere Kreuzvalidierungstechniken übertreffen kann.
Dieses Papier ist etwas umstritten und wird etwas ignoriert (10 Jahre nach seiner Veröffentlichung hatten meine Kollegen aus der Chemometrie noch nie davon gehört und verwendeten LOOCV gerne für die variable Auswahl ...). Es gibt auch eine Überzeugung (ich bin daran schuld), dass die Ergebnisse etwas über den ursprünglich begrenzten Umfang hinausgehen.
Die Frage also: Wie weit reichen diese Ergebnisse? Sind sie auf die folgenden Probleme anwendbar?
- Variablenauswahl für logistische Regression / GLM?
- Variablenauswahl für die Fisher-LDA-Klassifizierung?
- Variablenauswahl mit SVM mit endlichem (oder unendlichem) Kernelraum?
- Vergleich von Modellen in der Klassifikation, sagen SVM mit verschiedenen Kerneln?
- Vergleich von Modellen in linearer Regression, z. B. Vergleich von MLR mit Ridge Regression?
- etc.