Die Grundidee bei der Verwendung von PCA als Werkzeug für die Merkmalsauswahl besteht darin, Variablen entsprechend der Größe (vom größten zum kleinsten Betrag) ihrer Koeffizienten ( Belastungen ) auszuwählen . Sie erinnern sich vielleicht, dass PCA versucht, (mehr oder weniger korrelierte) Variablen durch nicht korrelierte lineare Kombinationen (Projektionen) der ursprünglichen Variablen zu ersetzen . Lassen Sie uns ignorieren, wie Sie ein optimales für das jeweilige Problem auswählen . Diese Hauptkomponenten werden durch ihre erklärte Varianz nach Wichtigkeit eingestuft, und jede Variable trägt mit unterschiedlichem Ausmaß zu jeder Komponente bei. Die Verwendung der größten Varianzkriterien würde einer Merkmalsextraktion ähnelnk < p k k j < p j p jpk < pkk , wobei die Hauptkomponente anstelle der ursprünglichen Variablen als neue Features verwendet wird. Wir können jedoch beschließen, nur die erste Komponente beizubehalten und die Variablen mit dem höchsten absoluten Koeffizienten auszuwählen . Die Zahl kann auf dem Anteil der Anzahl von Variablen (z. B. nur die oberen 10% der Variablen) oder einem festen Grenzwert (z. B. unter Berücksichtigung eines Schwellenwerts für die normalisierten Koeffizienten) basieren . Dieser Ansatz ähnelt dem Lasso- Operator bei der bestraften Regression (oder PLS- Regression). Weder der Wert von noch die Anzahl der beizubehaltenden Komponenten sind jedoch naheliegende Optionen.j < pjpj
Das Problem bei der Verwendung von PCA besteht darin, dass (1) Messungen von allen ursprünglichen Variablen in der Projektion auf den unteren dimensionalen Raum verwendet werden, (2) nur lineare Beziehungen berücksichtigt werden und (3) auch auf PCA oder SVD basierende Methoden Berücksichtigen Sie als univariate Screening-Methoden (t-Test, Korrelation usw.) nicht die potenzielle multivariate Natur der Datenstruktur (z. B. Interaktion höherer Ordnung zwischen Variablen).
In Bezug auf Punkt 1 wurden einige aufwendigere Screening-Methoden vorgeschlagen, z. B. die Hauptmerkmalanalyse oder die schrittweise Methode, wie sie in Genexpressionsstudien für die " Gen-Rasur " verwendet wurden. Außerdem kann eine spärliche PCA verwendet werden, um eine Dimensionsreduzierung und eine Variablenauswahl basierend auf den resultierenden variablen Ladungen durchzuführen. Über Punkt 2 ist es möglich, Kernel-PCA (unter Verwendung des Kernel-Tricks ) zu verwenden, wenn man nichtlineare Beziehungen in einen Raum mit niedrigeren Dimensionen einbetten muss. Entscheidungsbäume oder besser der Random-Forest- Algorithmus sind wahrscheinlich besser in der Lage, Punkt 3 zu lösen. Letzterer ermöglicht es, Gini- oder permutationsbasierte Maße mit variabler Wichtigkeit abzuleiten .
Ein letzter Punkt: Wenn Sie vor dem Anwenden eines Klassifizierungs- oder Regressionsmodells eine Featureauswahl durchführen möchten, müssen Sie den gesamten Prozess einer Kreuzvalidierung unterziehen (siehe §7.10.2 der Elemente des statistischen Lernens oder Ambroise und McLachlan, 2002 ).
Da Sie an einer R-Lösung interessiert zu sein scheinen, empfehle ich einen Blick auf das Caret- Paket, das viele nützliche Funktionen für die Datenvorverarbeitung und die Variablenauswahl in einem Klassifizierungs- oder Regressionskontext enthält.