Ich habe ein Problem mit großen Datenmengen (z. B. 50 Millionen Zeilen und 200 Spalten). Das Dataset besteht aus ungefähr 100 numerischen Spalten und 100 kategorialen Spalten sowie einer Antwortspalte, die ein Binärklassenproblem darstellt. Die Kardinalität jeder der kategorialen Spalten beträgt weniger als 50.
Ich möchte a priori wissen, ob ich Deep-Learning-Methoden oder Ensemble-Tree-basierte Methoden (z. B. Gradient Boosting, Adaboost oder Random Forest) wählen soll. Gibt es eine explorative Datenanalyse oder andere Techniken, die mir helfen können, mich für eine Methode gegenüber der anderen zu entscheiden?