Kann jemand die Gründe für Gini-Verunreinigung gegen Informationsgewinn (basierend auf Entropie) praktisch erklären ?
Welche Metrik ist in verschiedenen Szenarien besser geeignet, wenn Entscheidungsbäume verwendet werden?
Kann jemand die Gründe für Gini-Verunreinigung gegen Informationsgewinn (basierend auf Entropie) praktisch erklären ?
Welche Metrik ist in verschiedenen Szenarien besser geeignet, wenn Entscheidungsbäume verwendet werden?
Antworten:
Gini-Verunreinigung und Informationsgewinnungs-Entropie sind ziemlich gleich. Und die Leute benutzen die Werte austauschbar. Unten sind die Formeln von beiden:
Wenn ich die Wahl hätte, würde ich die Gini-Verunreinigung verwenden, da ich keine rechenintensiven logarithmischen Funktionen berechnen muss. Die geschlossene Form seiner Lösung kann auch gefunden werden.
Welche Metrik ist in verschiedenen Szenarien besser geeignet, wenn Entscheidungsbäume verwendet werden?
Die Gini-Verunreinigung aus den oben genannten Gründen.
In Bezug auf die CART-Analyse sind sie also nahezu identisch.
Hilfreiche Referenz zum rechnerischen Vergleich der beiden Methoden
Im Allgemeinen ändert sich Ihre Leistung nicht, egal ob Sie Gini-Verunreinigung oder Entropie verwenden.
Laura Elena Raileanu und Kilian Stoffel verglichen beide in " Theoretischer Vergleich zwischen Gini-Index und Informationsgewinnkriterien ". Die wichtigsten Bemerkungen waren:
Mir wurde einmal gesagt, dass beide Metriken existieren, weil sie in verschiedenen Disziplinen der Wissenschaft entstanden sind.
Für den Fall einer Variablen mit zwei Werten, die mit den Brüchen f und (1-f) auftreten, sind
Gini und Entropie gegeben durch:
gini = 2 · f (1-f)
Entropie = f · ln (1 / f) + (1-f) * ln (1 / (1-f))
Diese Maße sind sehr ähnlich, wenn sie auf 1,0 skaliert werden (Zeichnen von 2 * gini und Entropie / ln (2)):
Die Entropie benötigt aufgrund der Protokollberechnung etwas mehr Rechenzeit als der Gini-Index. Vielleicht ist der Gini-Index deshalb die Standardoption für viele ML-Algorithmen. Aber von Tan et. al book Einführung in Data Mining
"Verunreinigungsmessungen stimmen weitgehend überein ... Die Strategie zum Beschneiden des Baums hat in der Tat eine größere Auswirkung auf den endgültigen Baum als die Auswahl der Verunreinigungsmessungen."
Es sieht also so aus, als ob die Auswahl des Verunreinigungsmaßes wenig Einfluss auf die Leistung von Einzelentscheidungsbaumalgorithmen hat.
Ebenfalls. "Die Gini-Methode funktioniert nur, wenn die Zielvariable eine binäre Variable ist." - Lernen Sie Predictive Analytics mit Python.
Ich habe in der letzten Woche Optimierungen an der binären Klassifikation vorgenommen und in jedem Fall übertrifft die Entropie Gini erheblich. Dies mag datensatzspezifisch sein, aber es scheint, als wäre es eine vernünftige Wahl, beide zu versuchen, während die Optimierung von Hyperparametern durchgeführt wird, anstatt vorher Annahmen über das Modell zu treffen.
Sie wissen erst, wie die Daten reagieren, wenn Sie die Statistiken erstellt haben.
Gemäß dem Parasimony-Prinzip übertrifft Gini die Entropie hinsichtlich der Rechenfreundlichkeit (log ist offensichtlich, da mehr Berechnungen erforderlich sind als eine einfache Multiplikation auf Prozessor- / Maschinenebene).
In einigen Datenfällen mit hohem Ungleichgewicht hat die Entropie jedoch definitiv einen Vorteil.
Da die Entropie ein Protokoll der Wahrscheinlichkeiten verwendet und mit den Wahrscheinlichkeiten des Ereignisses multipliziert, geschieht im Hintergrund der Wert der niedrigeren Wahrscheinlichkeiten, die erhöht werden.
Wenn Ihre Datenwahrscheinlichkeitsverteilung exponentiell ist oder Laplace (wie im Fall von Deep Learning, wo wir eine Wahrscheinlichkeitsverteilung an einem scharfen Punkt benötigen), ist die Entropie besser als Gini.
Um ein Beispiel zu geben, wenn Sie 2 Ereignisse mit einer Wahrscheinlichkeit von 0,01 und einer anderen Wahrscheinlichkeit von 0,99 haben.
In Gini Prob ist sq .01 ^ 2 + .99 ^ 2, .0001 + .9801 bedeutet, dass eine geringere Wahrscheinlichkeit keine Rolle spielt, da alles von der Mehrheitswahrscheinlichkeit bestimmt wird.
Bei Entropie ist jetzt .01 * log (.01) + .99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 Deutlich erkennbare niedrigere Wahrscheinlichkeiten erhalten ein besseres Gewichtsalter.