Ich versuche zu verstehen, wie man den Entscheidungsprozess eines mit sklearn erstellten Entscheidungsbaum-Klassifizierungsmodells vollständig versteht. Die beiden Hauptaspekte, die ich betrachte, sind eine grafische Darstellung des Baums und die Liste der Funktionsbedeutungen. Was ich nicht verstehe, ist, wie die Merkmalsbedeutung im Kontext des Baums bestimmt wird. Hier ist zum Beispiel meine Liste der Funktionsbedeutungen:
Feature-Ranking: 1. FeatureA (0,300237)
FeatureB (0,166800)
FeatureC (0,092472)
FeatureD (0.075009)
FeatureE (0.068310)
FeatureF (0.067118)
FeatureG (0,066510)
FeatureH (0,043502)
FeatureI (0,040281)
FeatureJ (0.039006)
FeatureK (0.032618)
FeatureL (0,008136)
FeatureM (0,000000)
Wenn ich jedoch auf die Spitze des Baumes schaue, sieht es so aus:
Tatsächlich werden einige der Features, die als "am wichtigsten" eingestuft werden, erst viel weiter unten im Baum angezeigt, und oben im Baum befindet sich FeatureJ, eines der Features mit dem niedrigsten Rang. Meine naive Annahme wäre, dass die wichtigsten Merkmale in der Nähe der Baumspitze platziert werden, um die größte Wirkung zu erzielen. Wenn das falsch ist, was macht dann eine Funktion "wichtig"?