Meine Frage betrifft die Kreuzvalidierung, wenn es viel mehr Variablen als Beobachtungen gibt. Um Ideen zu fixieren, schlage ich vor, mich auf den Klassifizierungsrahmen in sehr hohen Dimensionen zu beschränken (mehr Merkmale als Beobachtung).
Problem: Angenommen, Sie haben für jede Variable ein Maß für die Wichtigkeit als das Interesse des Merkmals für das Klassifizierungsproblem genau zu messen . Das Problem der Auswahl einer Teilmenge von Merkmalen zur optimalen Reduzierung des Klassifizierungsfehlers wird dann auf das Problem der Ermittlung der Anzahl von Merkmalen reduziert.T [ i ] i
Frage: Was ist in diesem Fall der effizienteste Weg, um eine Kreuzvalidierung durchzuführen (Kreuzvalidierungsschema)? Meine Frage betrifft nicht das Schreiben des Codes, sondern die Version der Kreuzvalidierung, die verwendet werden soll, um die Anzahl der ausgewählten Features zu ermitteln (um den Klassifizierungsfehler zu minimieren), sondern den Umgang mit der hohen Dimension bei der Kreuzvalidierung (daher die Das obige Problem kann ein bisschen wie ein "Spielzeugproblem" sein, um den Lebenslauf in hoher Dimension zu diskutieren.
Notationen: ist die Größe des Lernsatzes, p die Anzahl der Merkmale (dh die Dimension des Merkmalsraums). Mit sehr hoher Dimension meine ich p >> n (zum Beispiel und ).p = 10000 n = 100