Ich studiere zurzeit Datenwissenschaft und wir lernen eine schwindelerregende Vielfalt grundlegender Regressions- / Klassifizierungstechniken (linear, logistisch, Bäume, Splines, ANN, SVM, MARS usw.) sowie eine Vielzahl von zusätzliche Werkzeuge (Bootstrapping, Boosten, Absacken, Ensemble, Ridge / Lasso, CV usw. usw.). Manchmal erhalten die Techniken einen Kontext (z. B. geeignet für kleine / große Datensätze, geeignet für eine kleine / große Anzahl von Prädiktoren usw.), aber zum größten Teil scheint es für jedes Regressions- oder Klassifizierungsproblem eine schwindelerregende Reihe von Optionen zu geben wählen von.
Wenn ich jetzt einen Job in der Datenwissenschaft angefangen hätte und ein Modellierungsproblem bekommen hätte, könnte ich es wahrscheinlich nicht besser machen, als alle mir bekannten Techniken mit Grundkonfigurationen auszuprobieren, sie mithilfe einer Kreuzvalidierung zu bewerten und die besten auszuwählen. Aber es muss noch mehr geben.
Ich stelle mir vor, ein erfahrener Datenwissenschaftler kennt den Katalog der Techniken gut und folgt einem mentalen Flussdiagramm, um zu entscheiden, welche Techniken er ausprobieren möchte, anstatt sie alle sinnlos auszuprobieren. Ich stelle mir vor, dass dieses Flussdiagramm eine Funktion von a) einer Anzahl von Prädiktoren ist; b) Variablentypen; c) Domänenwissen über mögliche Beziehungen (linear / nichtlinear); d) Größe des Datensatzes; e) Einschränkungen bezüglich der Rechenzeit und so weiter.
Gibt es ein solches vereinbartes konventionelles Flussdiagramm, um die Techniken auszuwählen? Oder läuft es wirklich darauf hinaus, "viele Dinge auszuprobieren und zu sehen, was mit der gewünschten Maßnahme am besten funktioniert, z. B. Kreuzvalidierung"?