Sehr interessante Frage (+1). Ich kenne zwar keine Softwaretools, die derzeit umfassende Funktionen für das Feature-Engineering bieten, aber in dieser Hinsicht gibt es definitiv eine breite Palette von Optionen. Derzeit ist das Feature-Engineering meines Wissens immer noch ein mühsamer und manueller Prozess (siehe diesen Blog-Beitrag ). Sprechen über die Feature - Engineering Thema Domain, dieser ausgezeichnete Artikel von Jason Brownlee bietet einen ziemlich umfassenden Überblick über das Thema.
Ben Lorica, Chief Data Scientist und Director Content Strategy für Data bei O'Reilly Media Inc., hat einen sehr schönen Artikel verfasst , in dem die neuesten Ansätze, Methoden, Tools und Start-ups im Internet (Stand Juni 2014) beschrieben werden Bereich der Automatisierung (oder, wie er es ausdrückte, Straffung ) des Feature-Engineerings.
Ich habe einen kurzen Blick auf einige Startups geworfen , auf die Ben verwiesen hat, und ein Produkt von Skytree sieht tatsächlich ziemlich beeindruckend aus, insbesondere in Bezug auf das Thema dieser Frage. Allerdings klingen einige ihrer Behauptungen für mich sehr verdächtig (z. B. "Skytree beschleunigt die Methoden des maschinellen Lernens im Vergleich zu Open-Source-Optionen um das 150-fache" ). Ich spreche weiter von kommerziellen Data Science- und Machine Learning-Angeboten und muss Lösungen von Microsoft erwähnen, insbesondere das Azure Machine Learning Studio . Dieses webbasierte Produkt ist sehr leistungsfähig und elegant und bietet einige Funktionen für das Feature-Engineering (FEF). Ein Beispiel für ein einfaches FEF finden Sie in diesem schönen Video .
Um auf die Frage zurückzukommen: Ich denke, der einfachste Ansatz für die Automatisierung des Feature-Engineerings ist die Verwendung entsprechender IDEs . Da Sie (auch ich) an R-Sprache als Data-Science-Backend interessiert sind, würde ich vorschlagen, zusätzlich zu RStudio eine ähnliche Open-Source-IDE mit dem Namen RKWard zu prüfen . Einer der Vorteile von RKWard gegenüber RStudio besteht darin, dass es das Schreiben von Plugins für die IDE unterstützt, sodass Datenwissenschaftler das Feature-Engineering automatisieren und ihre R-basierte Datenanalyse optimieren können.
Schließlich finden wir auf der anderen Seite des Spektrums der Feature-Engineering-Lösungen einige Forschungsprojekte . Die beiden bemerkenswertesten scheinen das Columbus-Projekt der Stanford University zu sein , das im entsprechenden Forschungsbericht detailliert beschrieben ist , und die in diesem Bericht beschriebene Gehirnwäsche .