Ist die Gradientenverstärkung für Daten mit niedrigen Ereignisraten wie 1% geeignet?

Ich versuche, den Gradienten für ein Dataset mit einer Ereignisrate von etwa 1% mithilfe von Enterprise Miner zu erhöhen, aber es wird keine Ausgabe erzeugt. Meine Frage ist, ob es sich um einen auf Entscheidungsbäumen basierenden Ansatz handelt, ob es überhaupt richtig ist, die Gradientenverstärkung bei einem so niedrigen Ereignis zu verwenden.

— user2542275
quelle

Sie haben es mit einem unausgeglichenen Datensatz zu tun. Boosting ist in der Tat ein guter Weg, um damit umzugehen. Für Details siehe stats.stackexchange.com/questions/157940/…

— DaL

Aber für mich liefert die logistische Regression bessere Ergebnisse als die Zufallsforst- oder Gradientenverstärkung. Ich wollte die Leistung meines Modells verbessern, indem ich die verstärkten Bäume ausprobierte.

— user2542275

Boosting basiert auf schwachen Klassifikatoren. Theoretisch reicht jeder schwache Klassifikator aus, der etwas besser als zufällig ist. In der Praxis sind verschiedene Algorithmen für einige Datensätze besser geeignet, daher ist der von Ihnen gewählte schwache Klassifikator wichtig. Können Sie mehr über die von Ihnen verwendeten Algorithmen, deren Ergebnisse und den Datensatz angeben?

— DaL

In Ordnung. Informationen zum Datensatz: Stichprobengröße> 4 m, Ereignisrate = 1,2%. Die Anzahl der Prädiktoren mit einem signifikanten p-Wert <0,05 beträgt 150. Die logistische Regression mit den signifikantesten Variablen ergab einen Anstieg von 3 bei 20% der Bevölkerung. Das neuronale Netz ergab einen Auftrieb von etwa 2,8. Die Gradientenverstärkung erzeugte keine Ausgabe, bis ich eine geschichtete Abtastung mit inversen vorherigen Gewichten verwendete. Aber die Leistung ist schlecht.

— user2542275

Da Ihr Datensatz ziemlich groß ist, sollten Sie über genügend Stichproben Ihrer Minderheitsklasse verfügen, sodass das Problem auf ein relatives Ungleichgewicht zurückzuführen ist. Sie haben einige Funktionen, aber nicht zu viele, aber tatsächlich sind Entscheidungsbäume für solche Datensätze weniger geeignet. Ich schlage vor, dass Sie ein ausgewogenes Dataset erstellen und sehen, wie gut Ihre Algorithmen darauf arbeiten. Dann können Sie den Algorithmus auf den Originaldatensatz anwenden, wie ich es im ersten Kommentar beschrieben habe.

— DaL

(Um eine kurze Antwort darauf zu geben :)

Es ist in Ordnung, einen Algorithmus zur Erhöhung des Gradienten zu verwenden, wenn Sie mit einem unausgeglichenen Datensatz arbeiten. Beim Umgang mit einem stark unausgeglichenen Datensatz ist es viel relevanter, die Eignung der verwendeten Metrik in Frage zu stellen. Wir sollten möglicherweise Metriken wie Genauigkeit oder Rückruf vermeiden, die auf willkürlichen Schwellenwerten basieren, und uns für Metriken wie AUCPR- oder Brier-Scoring entscheiden, die ein genaueres Bild liefern - siehe den ausgezeichneten CV.SE-Thread zu: Warum ist Genauigkeit nicht das ? beste Maßnahme zur Bewertung von Klassifizierungsmodellen? für mehr). In ähnlicher Weise könnten wir möglicherweise einen kostensensitiven Ansatz verfolgen, indem wir unterschiedliche Fehlklassifizierungskosten zuweisen (siehe z. B. Masnadi-Shirazi & Vasconcelos (2011) Cost-Sensitive Boosting)Für eine allgemeine Ansicht und vorgeschlagene Änderungen an bekannten Boosting-Algorithmen oder für eine besonders interessante Anwendung mit einem einfacheren Ansatz überprüfen Sie den Higgs-Boson-Challenge-Bericht für den XGBoost-Algorithmus. Chen & He (2015) Higgs Boson Discovery mit Boosted Trees liefert weitere Details).

Es ist auch erwähnenswert, dass wir, wenn wir einen probabilistischen Klassifikator (wie GBMs) verwenden, aktiv die Kalibrierung der zurückgegebenen Wahrscheinlichkeiten untersuchen können / sollten (siehe z. B. Zadrozny & Elkan (2002) Transformieren von Klassifikatorwerten in genaue Wahrscheinlichkeitsschätzungen für mehrere Klassen oder Kull et al. 2017) Beta-Kalibrierung: Eine fundierte und einfach zu implementierende Verbesserung der logistischen Kalibrierung für binäre Klassifikatoren , um die Leistung unserer Lernenden potenziell zu steigern. Insbesondere bei der Arbeit mit unausgeglichenen Daten kann eine angemessene Erfassung von Tendenzänderungen aussagekräftiger sein als die einfache Kennzeichnung der Daten. Insofern könnten einige argumentieren, dass kostensensitive Ansätze am Ende nicht so vorteilhaft sind (siehe z. B. Nikolaou et al. (2016)).Kostensensitive Boosting-Algorithmen: Brauchen wir sie wirklich?). Um den ursprünglichen Punkt noch einmal zu wiederholen: Boosting-Algorithmen sind für unausgeglichene Daten nicht von Natur aus schlecht und können in bestimmten Fällen eine sehr wettbewerbsfähige Option darstellen.

— usεr11852 sagt Reinstate Monic
quelle

Ich glaube, dass die Brier-Bewertung der Genauigkeitsmessung entspricht und daher bei der Bewertung seltener Ereignismodelle dieselben Einschränkungen wie die Genauigkeit aufweist.

— RobertF

Der Brier-Score entspricht nicht der Genauigkeit. Bitte beachten Sie, dass wir die vorhergesagte Wahrscheinlichkeit für die Berechnung des Brier-Scores verwenden, während wir für die Genauigkeitsberechnung Bezeichnungen verwenden, die auf der harten Schwellwertbildung der vorhergesagten Wahrscheinlichkeiten basieren.

— usεr11852 sagt Reinstate Monic

Vielen Dank für die Klarstellung - die Verwendung der geschätzten Wahrscheinlichkeit anstelle von 0/1 für die vorhergesagte Klasse ist sinnvoller.

— RobertF

Cool. Ich bin froh, dass wir das geklärt haben! :)

— usεr11852 sagt Reinstate Monic