Welche Beziehung besteht zwischen dem GINI-Score und dem Log-Likelihood-Verhältnis?

Ich studiere Klassifikations- und Regressionsbäume, und eine der Kennzahlen für den geteilten Standort ist der GINI-Score.

Jetzt bin ich es gewohnt, den besten Split-Standort zu bestimmen, wenn das Protokoll des Wahrscheinlichkeitsverhältnisses der gleichen Daten zwischen zwei Verteilungen Null ist, was bedeutet, dass die Wahrscheinlichkeit einer Mitgliedschaft gleich wahrscheinlich ist.

Meine Intuition besagt, dass es irgendeine Verbindung geben muss, dass GINI eine gute Grundlage in einer mathematischen Informationstheorie haben muss (Shannon), aber ich verstehe GINI nicht gut genug, um die Beziehung selbst abzuleiten.

Fragen:

Was ist die Ableitung der GINI-Verunreinigungsbewertung als Maß für die Aufteilung nach den "ersten Prinzipien"?
In welcher Beziehung steht der GINI-Score zum Log of Likelihood Ratio oder zu anderen informationstheoretischen Grundlagen (Shannon Entropy, pdf und Cross Entropy gehören dazu)?

Verweise:

Shannons Entropie wird beschrieben als:

H (x) = Σ_{i} P (x_{i}) \log_{b} P (x_{i})

$H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

Ausweitung auf den multivariaten Fall, den wir erhalten:

H (X, Y) = Σ_{x} Σ_{y} P (x, y) \log_{b} P (x, y)

$H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right)$

Die bedingte Entropie ist wie folgt definiert:

\begin{aligned} H (X | Y) & = Σ_{y} p (x, y) \log_{b} \frac{p (x)}{p (x, y)} \\ or, \\ H (X | Y) & = H (X, Y) - H (Y) \end{aligned}

$\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} \newline &\text{or,} \newline H \left(X|Y \right) &= H \left(X,Y \right) - H \left(Y \right) \end{align}$

Das Logbuch des Wahrscheinlichkeitsverhältnisses wird zur abrupten Änderungserkennung herangezogen und daraus abgeleitet. (Ich habe keine Ableitung vor mir.)

GINI-Verunreinigung:

Die allgemeine Form der GINI-Verunreinigung ist $I = \sum_{i=1}^m f_{i} \cdot \left( 1-f_{i}\right)$

Gedanken:

Die Aufteilung erfolgt nach Maßgabe der Verunreinigung. Hohe "Reinheit" ist wahrscheinlich gleichbedeutend mit niedriger Entropie. Der Ansatz hängt wahrscheinlich mit der Minimierung der Entropie zusammen.
Es ist wahrscheinlich, dass die angenommene Basisverteilung gleichförmig ist oder möglicherweise mit einer Handbewegung nach Gauß. Sie machen wahrscheinlich eine Mischung aus Verteilungen.
Ich frage mich, ob die Shewhart-Chartableitung hier angewendet werden kann.
Die GINI-Verunreinigung sieht aus wie das Integral der Wahrscheinlichkeitsdichtefunktion für eine Binomialverteilung mit zwei Versuchen und einem Erfolg. $P(x=k)= \begin{pmatrix} 2\\ 1\end{pmatrix} p \left( 1-p \right)$

(zusätzlich)

Das Formular stimmt auch mit einer Beta-Binomialverteilung überein, die ein Konjugat vor einer hypergeometrischen Verteilung ist. Hypergeometrische Tests werden häufig verwendet, um festzustellen, welche Proben in einer Probe über oder unterrepräsentiert sind. Es gibt auch eine Beziehung zu Fischers genauem Test, was auch immer das ist (Anmerkung für sich selbst, erfahren Sie mehr darüber).

Edit: Ich vermute, dass es eine Form von GINI gibt, die sehr gut mit digitaler Logik und / oder RB-Bäumen funktioniert. Ich hoffe, dass ich dies in einem Klassenprojekt im Herbst erforschen kann.

— EngrStudent - Setzen Sie Monica wieder ein
quelle

Ist es problematisch, wenn ich meine eigene Frage beantworte?

— EngrStudent

Nein überhaupt nicht. Wenn Sie eine vernünftige Antwort gefunden haben, feuern Sie ab.

— gung - Wiedereinsetzung von Monica

@EngrStudent. Gute Frage, aber der erste Link, den Sie im Abschnitt Referenzen angeben, bezieht sich auf den Gini-Koeffizienten, der nichts mit dem Gini-Maß zu tun hat, das in CART

— Antoine,

In Bezug auf den Gini-Index habe ich gerade eine einfache Interpretation gepostet: stats.stackexchange.com/questions/308885/…

— Picaud Vincent

Antworten:

Ich werde die gleiche Notation verwenden, die ich hier verwendet habe: Mathematik hinter Klassifikations- und Regressionsbäumen

$IG$ $I$

$\textit{Gini}: \mathit{Gini}(E) = 1 - \sum_{j=1}^{c}p_j^2$
$\textit{Entropy}: H(E) = -\sum_{j=1}^{c}p_j\log p_j$

$\beta$

H_{β} (E) = \frac{1}{β - 1} (1 - \sum_{j = 1}^{c} p_{j}^{β})

$H_\beta (E) = \frac{1}{\beta-1} \left( 1 - \sum_{j=1}^{c}p_j^\beta \right)$

$\textit{Gini}$ $\beta = 2$ $H$ $\beta \rightarrow 1$

$G$

G -statistisch = 2 \cdot | E | \cdot ich G

$G\text{-statistic} = 2 \cdot |E| \cdot IG$

Je nach Community (Statistik / Data Mining) bevorzugen die Menschen die eine oder die andere Maßnahme (Verwandte Frage hier ). Sie könnten im Entscheidungsbaum-Induktionsprozess ziemlich gleichwertig sein. Log-Likelihood kann ausgeglichenen Partitionen höhere Punktzahlen verleihen, wenn viele Klassen vorhanden sind. [Technischer Hinweis: Einige Eigenschaften von Aufteilungskriterien. Breiman 1996].

Gini Gain kann besser sein, weil es keine Logarithmen gibt und Sie die geschlossene Form für den erwarteten Wert und die Varianz unter der Annahme einer zufälligen Aufteilung finden können [Alin Dobra, Johannes Gehrke: Bias Correction in Classification Tree Construction. ICML 2001: 90 & ndash; 97]. Es ist nicht so einfach für Informationsgewinn (Wenn Sie interessiert sind, finden Sie hier ).

— Simone
quelle

Gute Frage. Leider habe ich noch nicht genug Ruf, um zu stimmen oder zu kommentieren, also antworte stattdessen!

Ich bin mit dem Ratio-Test nicht sehr vertraut, aber es fällt mir auf, dass es sich um einen Formalismus handelt, der zum Vergleichen der Wahrscheinlichkeit von Daten aus zwei (oder mehr) verschiedenen Verteilungen verwendet wird, während der Gini-Koeffizient eine zusammenfassende Statistik einer einzelnen Verteilung ist.

Ein nützlicher Weg, um den Gini-Koeffizienten (IMO) zu betrachten, ist die Fläche unter der Lorenz-Kurve (bezogen auf das cdf).

Es kann möglich sein, Shannons Entropie mit Gini gleichzusetzen, indem die im OP für Entropie angegebene Definition verwendet wird:

$H = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

und die Definition von Gini:

$G = 1 - \frac{1}{\mu}\Sigma_i P(x_i)(S_{i-1} + S_i)$ , woher

$S_i = \Sigma_{j=1}^i P(x_i)x_i$ (dh das kumulierte Mittel bis zu $x_i$ ).

Es sieht allerdings nicht nach einer einfachen Aufgabe aus!

— Gabriel
quelle

Ein Log-Likelihood-Verhältnis wird mit denselben Daten betrieben. Eine der Verteilungen kann dieselbe allgemeine Form haben wie die andere, aber ihre Parameter wurden an Daten angepasst, als ein anderes Kriterium zutraf. Sie könnten beispielsweise eine Verteilung haben, deren Parameter eine gesunde Produktionsprozessvariation beschreiben (nicht unbedingt Gauß), und eine andere, die an aktuelle Produktionsprozesswerte angepasst ist, und beide mit aktuellen Produktionsprozesswerten arbeiten, um das Log-Likelihood-Verhältnis mit einem angezeigten Schwellenwert zu vergleichen Möglichkeit eines Ausflugs. Es kann das Wirkliche mit dem Ideal verglichen werden.

— EngrStudent