Diese Frage mag zu offen sein, um eine endgültige Antwort zu erhalten, aber hoffentlich nicht.
Algorithmen für maschinelles Lernen, wie SVM, GBM, Random Forest usw., haben im Allgemeinen einige freie Parameter, die über eine Faustregel hinaus auf jeden Datensatz abgestimmt werden müssen. Dies wird im Allgemeinen mit einer Art Neuabtastungstechnik (Bootstrap, CV usw.) durchgeführt, um die Parameter anzupassen, die den besten Verallgemeinerungsfehler ergeben.
Meine Frage ist, können Sie hier zu weit gehen? Die Leute reden davon, Gittersuchen durchzuführen, aber warum nicht einfach als Optimierungsproblem behandeln und den bestmöglichen Parametersatz ermitteln? Ich habe in dieser Frage nach einigen Mechanismen dieser Frage gefragt, aber sie hat nicht viel Beachtung gefunden. Vielleicht wurde die Frage schlecht gestellt, aber vielleicht stellt die Frage selbst einen schlechten Ansatz dar, den die Leute im Allgemeinen nicht tun?
Was mich stört, ist die fehlende Regularisierung. Ich könnte durch erneutes Abtasten feststellen, dass 647 Bäume in einem GBM für diesen Datensatz mit einer Interaktionstiefe von 4 am besten wachsen, aber wie sicher kann ich sein, dass dies für neue Daten gilt (unter der Annahme der neuen Population) ist identisch mit dem Trainingsset)? Da es keinen vernünftigen Wert gibt, auf einen Wert zu "schrumpfen" (oder, wenn Sie so wollen, keine informativen Vorinformationen), erscheint eine erneute Probenahme als das Beste, was wir tun können. Ich höre einfach nichts darüber, deshalb frage ich mich, ob ich etwas vermisse.
Offensichtlich ist es mit einem hohen Rechenaufwand verbunden, viele Iterationen durchzuführen, um das letzte bisschen Vorhersagekraft aus einem Modell herauszuholen. Dies ist also eindeutig etwas, was Sie tun würden, wenn Sie die Zeit / das Grunzen haben, die Optimierung und jedes bisschen zu tun der Leistungsverbesserung ist wertvoll.