Die Auswahl von Features kann als zu vermeidende Phase angesehen werden. Sie müssen Rechenzeit aufwenden, um Features zu entfernen und tatsächlich Daten zu verlieren, und die Methoden, mit denen Sie Features auswählen müssen, sind nicht optimal, da das Problem NP-Complete ist . Die Nutzung klingt nicht nach einem Angebot, das Sie nicht ablehnen können.
Was sind die Vorteile der Verwendung?
- Viele Funktionen und ein niedriges Sample / Features-Verhältnis führen zu Rauschen in Ihrem Datensatz. In einem solchen Fall ist es wahrscheinlich, dass Ihr Klassifizierungsalgorithmus überpasst und Ihnen ein falsches Gefühl für eine gute Leistung vermittelt.
- Durch Verringern der Anzahl der Features wird die Laufzeit in späteren Phasen verringert. Auf diese Weise können Sie Algorithmen mit höherer Komplexität verwenden, nach mehr Hyperparametern suchen oder mehr Auswertungen durchführen.
- Ein kleinerer Satz von Merkmalen ist für den Menschen verständlicher. Auf diese Weise können Sie sich auf die Hauptquellen der Vorhersagbarkeit konzentrieren und ein genaueres Feature-Engineering durchführen. Wenn Sie einem Kunden Ihr Modell erklären müssen, präsentieren Sie ein Modell mit 5 Funktionen besser als ein Modell mit 200 Funktionen.
Nun zu Ihrem speziellen Fall: Ich empfehle, dass Sie mit der Berechnung der Korrelationen zwischen den Funktionen und dem Konzept beginnen. Das Berechnen von Korrelationen zwischen allen Merkmalen ist ebenfalls informativ. Beachten Sie, dass es viele Arten nützlicher Korrelationen gibt (z. B. Pearson , gegenseitige Informationen ) und viele Attribute, die diese beeinflussen können (z. B. Spärlichkeit, Konzeptungleichgewicht). Wenn Sie sie untersuchen, anstatt blindlings mit einem Funktionsauswahlalgorithmus zu arbeiten, sparen Sie möglicherweise in Zukunft viel Zeit.
Ich glaube nicht, dass Sie mit Ihrem Datensatz viele Laufzeitprobleme haben werden. Das Verhältnis von Beispielen zu Features ist jedoch nicht zu hoch, sodass Sie möglicherweise von der Feature-Auswahl profitieren.
Wählen Sie einen Klassifikator mit geringer Komplexität (z. B. lineare Regression, kleiner Entscheidungsbaum) und verwenden Sie ihn als Benchmark. Probieren Sie es mit dem vollständigen Datensatz und einem Datensatz mit einer Teilmenge der Funktionen aus. Ein solcher Benchmark hilft Ihnen bei der Verwendung der Funktionsauswahl. Sie benötigen eine solche Anleitung, da es viele Optionen gibt (z. B. die Anzahl der auszuwählenden Features, den Algorithmus zur Feature-Auswahl) und da das Ziel normalerweise die Prädikation und nicht die Feature-Auswahl ist, sodass das Feedback mindestens einen Schritt entfernt ist.