Lassen Sie mich in umgekehrter Reihenfolge beginnen, welche Merkmale extrahiert werden und warum eine Merkmalsauswahl und Dimensionsreduzierung erforderlich ist.
Beginnend mit der Verwendung der Merkmalsextraktion, die hauptsächlich zu Klassifizierungszwecken dient. Bei der Klassifizierung wird entschieden, zu welcher Kategorie ein bestimmtes Objekt gehört. Es besteht aus zwei Phasen: i) Trainingsphase, in der anhand der Daten oder Objekte ihre Eigenschaften mithilfe eines Prozesses (Merkmalsextraktion) gelernt werden. Ii) Testphase, in der das unbekannte Objekt anhand der in der vorherigen (Trainings-) Phase gelernten Merkmale klassifiziert wird.
Die Merkmalsextraktion ist, wie der Name vermuten lässt, angesichts des Ziels der Daten, das zugrunde liegende Muster zu finden. Dieses zugrunde liegende Muster, das als Merkmal bezeichnet wird, entspricht den jeweiligen Daten. Für die Feature-Extraktion stehen verschiedene Methoden zur Verfügung, z. B. Support Vector Machine (SVM).
Jetzt sollte die Merkmalsextraktion Merkmale erzeugen, die sein sollten
- robust
- diskriminierend
- optimale Ausstattung
Merkmalsauswahl: Ein bestimmter Datensatz kann entweder durch ein einzelnes Merkmal oder einen Satz von Merkmalen dargestellt werden. Im Klassifizierungsprozess wird ein System für mindestens zwei Klassen trainiert. Das Trainingssystem generiert also entweder eine einzelne Funktion oder eine Reihe von Funktionen. Diese Merkmale sollten die oben angegebenen Eigenschaften besitzen.
Das Problem tritt auf, wenn für jede Klasse ein Feature-Set vorhanden ist und eine Korrelation zwischen einigen der Features besteht. Dies impliziert, dass unter diesen korrelierenden Merkmalen eines oder wenige zur Darstellung ausreichen, und hier kommt die Merkmalsauswahl ins Spiel. Außerdem müssen diese Merkmale gespeichert werden, wenn sich auch der Bedarf an Merkmalssatzspeicher erhöht.
Dann kommt die Dimensionsreduktion, die nichts anderes als der Teil des Merkmalsauswahlprozesses ist. Es ist der Prozess der Auswahl des optimalen Satzes von Merkmalen, die die Daten am besten beschreiben. Es gibt viele Techniken dafür, wie z. B. Hauptkomponentenanalyse, unabhängige Komponentenanalyse und Matrixfaktorisierung usw.