Antworten:
Es gibt keine eindeutige Quelle für das Feature-Engineering. Dies hängt häufig von dem Problem ab, das Sie lösen möchten. Einige sagen, es sei eher eine Kunst als eine Wissenschaft.
Aber ich würde einige der Highscoring-Kaggle-Kernel / Gewinnlösungen durchgehen, falls verfügbar. Gehen Sie einfach zu kaggle und stöbern Sie durch die Wettbewerbe. Es gibt dort eine Menge sehr nützliches Material.
Auch das Journal of Machine Learning Research hat viele Artikel über Feature Engineering. Suchen Sie einfach auf ihrer Website http://www.jmlr.org/ .
Die folgenden Links sind nützlich und zu lang, um sie zu paraphrasieren:
Fehlende Datenimputation:
Komplette Fallanalyse
Mittelwert / Median / Modus-Imputation
Zufällige Stichprobenimputation
Ersetzung durch beliebigen Wert
Fehlwertanzeige
Multivariate Imputation
Kategoriale Codierung:
Eine heiße Codierung
Zähl- und Frequenzcodierung
Zielcodierung / Mittlere Codierung
Ordinale Codierung
Beweiskraft
Seltene Etikettencodierung
BaseN, Feature-Hashing und andere
Variable Transformation:
Logarithmus
Gegenseitig
Quadratwurzel
Exponentiell
Yeo-Johnson
Box-Cox
Diskretisierung:
Gleichfrequenzdiskretisierung
Diskretisierung gleicher Länge
Diskretisierung mit Bäumen
Diskretisierung mit ChiMerge
Ausreißerentfernung:
Ausreißer entfernen
Ausreißer als NaN behandeln
Verschließen, Windsorisierung
Feature-Skalierung:
Standardisierung
MinMax-Skalierung
Mittlere Skalierung
Maximale absolute Skalierung
Einheitsnorm-Skalierung
Datum und Uhrzeit Engineering:
Feature-Erstellung:
Aggregieren von Transaktionsdaten:
Features aus Text extrahieren:
Tasche voller Wörter
tfidf
n-Gramm
word2vec
Themenextraktion
Und schließlich Features aus Bildern extrahieren.
Ein guter Artikel, der die meisten der oben genannten Techniken beschreibt: Feature Engineering bietet einen umfassenden Überblick
Eine gute Liste von Ressourcen, um mehr über Feature Engineering zu erfahren : Beste Ressourcen, um mehr über Feature Engineering zu erfahren
Python-Tools für das Feature-Engineering finden Sie in diesem Thread
HAFTUNGSAUSSCHLUSS: Ich habe die 2 Artikel geschrieben und bin auch der Schöpfer eines der empfohlenen Kurse, um mehr über Feature Engineering zu erfahren.