(Angenommen, Sie sprechen über betreutes Lernen)
Korrelierte Funktionen verschlechtern Ihr Modell nicht immer, verbessern es jedoch auch nicht immer.
Es gibt drei Hauptgründe, warum Sie korrelierte Features entfernen:
- Machen Sie den Lernalgorithmus schneller
Aufgrund des Fluchs der Dimensionalität bedeuten weniger Merkmale normalerweise eine hohe Verbesserung der Geschwindigkeit.
Wenn Geschwindigkeit kein Problem ist, entfernen Sie diese Funktionen möglicherweise nicht sofort (siehe nächster Punkt).
- Verringern Sie die schädliche Vorspannung
Das Schlüsselwort ist schädlich. Wenn Sie Features korreliert haben, diese aber auch mit dem Ziel korreliert sind, möchten Sie sie behalten. Sie können Features als Tipps anzeigen, um eine gute Vermutung zu treffen. Wenn Sie zwei Tipps haben, die im Wesentlichen gleich sind, aber gute Tipps sind, ist es möglicherweise ratsam, sie beizubehalten.
Einige Algorithmen wie Naive Bayes profitieren direkt von "positiven" korrelierten Merkmalen. Und andere, wie zufällige Wälder, können indirekt davon profitieren.
Stellen Sie sich vor, Sie haben 3 Merkmale A, B und C. A und B sind stark mit dem Ziel und untereinander korreliert, und C ist überhaupt nicht. Wenn Sie aus den 3 Merkmalen auswählen, haben Sie eine Chance von 2/3, ein "gutes" Merkmal zu erhalten, während diese Chance auf 1/2 sinkt, wenn Sie beispielsweise B entfernen
Natürlich kann es sein, dass der Algorithmus nicht viel leidet, wenn die korrelierten Merkmale überhaupt nicht sehr informativ sind.
Das Entfernen dieser Funktionen kann aus Gründen der Geschwindigkeit notwendig sein. Denken Sie jedoch daran, dass Sie Ihren Algorithmus dadurch möglicherweise verschlechtern. In einige Algorithmen, wie z. B. Entscheidungsbäume, ist auch eine Feature-Auswahl eingebettet.
Eine gute Möglichkeit, damit umzugehen, besteht darin, eine Wrapper-Methode für die Featureauswahl zu verwenden. Redundante Funktionen werden nur entfernt, wenn sie nicht direkt zur Leistung beitragen. Wenn sie nützlich sind wie in naiven Bayes, werden sie behalten. (Beachten Sie jedoch, dass Wrapper-Methoden teuer sind und zu einer Überanpassung führen können.)
- Interpretierbarkeit Ihres Modells
Wenn Ihr Modell interpretierbar sein muss, müssen Sie es möglicherweise vereinfachen. Denken Sie auch an Occams Rasiermesser. Wenn Ihr Modell mit weniger Funktionen nicht "so viel" schlechter ist, sollten Sie wahrscheinlich weniger Funktionen verwenden.