Feature Engineering ist oft ein wichtiger Bestandteil des maschinellen Lernens (es wurde stark genutzt, um den KDD Cup 2010 zu gewinnen ). Ich finde jedoch, dass die meisten Feature-Engineering-Techniken entweder
- Zerstören Sie jede intuitive Bedeutung der zugrunde liegenden Funktionen oder
- sind sehr spezifisch für eine bestimmte Domäne oder sogar bestimmte Arten von Funktionen.
Ein klassisches Beispiel für erstere wäre die Hauptkomponentenanalyse. Mir scheint, dass jegliches Wissen, das ein Fachexperte über die Merkmale haben würde, zerstört würde, wenn diese Merkmale in Hauptkomponenten umgewandelt würden.
Vergleichen Sie dies mit einer einfachen Technik zum Umwandeln eines Datums in Features für "Tag des Monats" und "Tag der Woche". Die zugrunde liegende Bedeutung bleibt in den neuen Features erhalten, aber diese spezielle Technik gilt natürlich nur für Datumsangaben und nicht für beliebige Features.
Gibt es ein Standardwerk an Feature-Engineering-Techniken, die die Bedeutung der zugrunde liegenden Features nicht zerstören und gleichzeitig auf beliebige Domänen (oder zumindest eine Vielzahl von Domänen) anwendbar sind?