In Applied Predictive Modeling von Kuhn und Johnson schreiben die Autoren:
Schließlich leiden diese Bäume unter Selektionsverzerrungen: Prädiktoren mit einer höheren Anzahl unterschiedlicher Werte werden gegenüber detaillierteren Prädiktoren bevorzugt (Loh und Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh und Shih (1997) bemerkten: „Die Gefahr besteht, wenn ein Datensatz aus einer Mischung von Informations- und Rauschvariablen besteht und die Rauschvariablen viel mehr Teilungen aufweisen als die Informationsvariablen. Dann besteht eine hohe Wahrscheinlichkeit, dass die Rauschvariablen ausgewählt werden, um die oberen Knoten des Baums zu teilen. Beim Beschneiden entsteht entweder ein Baum mit irreführender Struktur oder überhaupt kein Baum. “
Kuhn, Max; Johnson, Kjell (2013-05-17). Angewandte prädiktive Modellierung (Kindle Locations 5241-5247). Springer New York. Kindle Edition.
Sie beschreiben einige Forschungen zum Bau unvoreingenommener Bäume. Zum Beispiel Lohs GUIDE-Modell.
Wenn ich mich so streng wie möglich an das CART-Framework halte, frage ich mich, ob ich etwas tun kann, um diese Auswahlverzerrung zu minimieren. Zum Beispiel ist das Clustering / Gruppieren von Prädiktoren mit hoher Kardinalität möglicherweise eine Strategie. Aber bis zu welchem Grad sollte man die Gruppierung vornehmen? Wenn ich einen Prädiktor mit 30 Ebenen habe, sollte ich 10 Ebenen gruppieren? fünfzehn? 5?