Ich studiere Klassifikations- und Regressionsbäume, und eine der Kennzahlen für den geteilten Standort ist der GINI-Score.
Jetzt bin ich es gewohnt, den besten Split-Standort zu bestimmen, wenn das Protokoll des Wahrscheinlichkeitsverhältnisses der gleichen Daten zwischen zwei Verteilungen Null ist, was bedeutet, dass die Wahrscheinlichkeit einer Mitgliedschaft gleich wahrscheinlich ist.
Meine Intuition besagt, dass es irgendeine Verbindung geben muss, dass GINI eine gute Grundlage in einer mathematischen Informationstheorie haben muss (Shannon), aber ich verstehe GINI nicht gut genug, um die Beziehung selbst abzuleiten.
Fragen:
- Was ist die Ableitung der GINI-Verunreinigungsbewertung als Maß für die Aufteilung nach den "ersten Prinzipien"?
- In welcher Beziehung steht der GINI-Score zum Log of Likelihood Ratio oder zu anderen informationstheoretischen Grundlagen (Shannon Entropy, pdf und Cross Entropy gehören dazu)?
Verweise:
- Wie ist das gewichtete Gini-Kriterium definiert?
- Mathematik hinter Klassifikations- und Regressionsbäumen
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(hinzugefügt) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
Shannons Entropie wird beschrieben als:
Ausweitung auf den multivariaten Fall, den wir erhalten:
Die bedingte Entropie ist wie folgt definiert:
Das Logbuch des Wahrscheinlichkeitsverhältnisses wird zur abrupten Änderungserkennung herangezogen und daraus abgeleitet. (Ich habe keine Ableitung vor mir.)
GINI-Verunreinigung:
- Die allgemeine Form der GINI-Verunreinigung ist
Gedanken:
- Die Aufteilung erfolgt nach Maßgabe der Verunreinigung. Hohe "Reinheit" ist wahrscheinlich gleichbedeutend mit niedriger Entropie. Der Ansatz hängt wahrscheinlich mit der Minimierung der Entropie zusammen.
- Es ist wahrscheinlich, dass die angenommene Basisverteilung gleichförmig ist oder möglicherweise mit einer Handbewegung nach Gauß. Sie machen wahrscheinlich eine Mischung aus Verteilungen.
- Ich frage mich, ob die Shewhart-Chartableitung hier angewendet werden kann.
- Die GINI-Verunreinigung sieht aus wie das Integral der Wahrscheinlichkeitsdichtefunktion für eine Binomialverteilung mit zwei Versuchen und einem Erfolg.
(zusätzlich)
- Das Formular stimmt auch mit einer Beta-Binomialverteilung überein, die ein Konjugat vor einer hypergeometrischen Verteilung ist. Hypergeometrische Tests werden häufig verwendet, um festzustellen, welche Proben in einer Probe über oder unterrepräsentiert sind. Es gibt auch eine Beziehung zu Fischers genauem Test, was auch immer das ist (Anmerkung für sich selbst, erfahren Sie mehr darüber).
Edit: Ich vermute, dass es eine Form von GINI gibt, die sehr gut mit digitaler Logik und / oder RB-Bäumen funktioniert. Ich hoffe, dass ich dies in einem Klassenprojekt im Herbst erforschen kann.