Was ist der beste Weg, um Funktionen für die Erkennung von Anomalien automatisch auszuwählen?
Ich behandle normalerweise Anomaly Detection als Algorithmus , wo die Merkmale von menschlichen Experten ausgewählt werden: was zählt , ist der Ausgangsbereich (wie in „abnormal Eingang - abnormal Ausgang“) , so auch mit vielen Funktionen , die Sie können mit einer viel kleineren Teilmenge kommen durch die Kombination von die Funktionen.
Unter der Annahme, dass eine Feature-Liste im Allgemeinen sehr umfangreich sein kann, ist manchmal ein automatisiertes Lernen vorzuziehen. Soweit ich sehen kann, gibt es einige Versuche:
- "Automatisierte Funktionsauswahl für die Erkennung von Anomalien" ( pdf ), die die Beschreibung der Support-Vektordaten verallgemeinert
- "Ein schnelles Host-basiertes Intrusion Detection-System mit Rough-Set-Theorie" (kein PDF verfügbar?), Das vermutlich die Rough-Set-Theorie verwendet
- "Lernregeln für die Erkennung von Anomalien bei feindlichem Netzwerkverkehr" ( pdf , Video ), die einen statistischen Ansatz verwenden
Jetzt frage ich mich also, ob es jemand sagen kann - unter der Annahme einer Anomalieerkennung und eines wirklich großen (Hunderte?) Funktionsumfangs:
- Sind diese riesigen Funktionen überhaupt sinnvoll? Sollten wir die Funktionen nicht einfach auf ein paar Dutzend reduzieren und das war's?
- Wenn große Funktionssätze sinnvoll sind, welcher der oben genannten Ansätze würde bessere Vorhersagen liefern, und warum? Gibt es etwas, das nicht aufgeführt ist und viel besser ist?
- Warum sollten sie bessere Ergebnisse liefern, beispielsweise im Vergleich zur Dimensionsreduzierung oder Merkmalskonstruktion über Clustering / Ranking / etc?