Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie?


12

Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie?

Ich versuche, zufällige Gesamtstruktur in Clojure zu implementieren.

Antworten:


9

Wie ich in Introduction to Data Mining von Tan et. al:

Studien haben gezeigt, dass die Wahl des Verunreinigungsmaßes wenig Einfluss auf die Leistung von Entscheidungsbaum-Induktionsalgorithmen hat. Dies liegt daran, dass viele Verunreinigungsmaßnahmen durchaus miteinander vereinbar sind [...]. Tatsächlich hat die Strategie zum Beschneiden des Baums eine größere Auswirkung auf den endgültigen Baum als die Wahl des Verunreinigungsmaßes.

Daher können Sie Gini-Indexe wie CART oder Entropy wie C4.5 verwenden.

Ich würde Entropy verwenden, genauer gesagt das Gain Ratio von C4.5, da Sie das gut geschriebene Buch von Quinlan: C4.5 Programs for Machine Learning leicht befolgen können.


3
Kleine Bemerkung - Bei der Entropie werden Protokolle verwendet, was ein Problem mit der Rechenzeit sein kann.

8
Bei dieser Bemerkung geht es um reine Entscheidungsbäume, aber nicht um zufällige Wälder. Normalerweise beschneiden Sie einen Baum nicht in einem zufälligen Wald, weil Sie nicht versuchen, einen besten Baum zu bauen. Es erscheint daher irreführend, über das Wesentliche zu sprechen: das Beschneiden oder das Messen von Verunreinigungen. Das Ziel ist es, den besten Baum für zufällige Gesamtstrukturen zu finden.
Chan-Ho Suh
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.