Es ist bekannt, dass wir beim Erstellen eines Entscheidungsbaums die Eingabevariable vollständig aufteilen und die 'beste' Aufteilung nach statistischem Testansatz oder Verunreinigungsfunktionsansatz finden.
Meine Frage ist, wenn wir eine kontinuierliche Variable als Eingabevariable verwenden (nur wenige doppelte Werte), kann die Anzahl der möglichen Teilungen sehr groß sein, um die "beste" Teilung zu finden, ist zeitaufwändig. Wie würden Datenwissenschaftler damit umgehen?
Ich habe einige Materialien gelesen, in denen Leute eine Zusammenfassung von Ebenen der Eingabe durchführen würden, um die möglichen Teilungen zu begrenzen. ( Beispiel ). Sie erklären jedoch nicht, wie es gemacht wird. Worauf basieren wir, um eine univariate Variable zu gruppieren? Gibt es Ressourcen für weitere Details oder kann jemand diese detailliert erklären?
Vielen Dank!