Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist.
Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren):
Das Problem des Klassenungleichgewichts beim maschinellen / statistischen Lernen ist die Beobachtung, dass einige Algorithmen für die binäre Klassifizierung (*) nicht gut funktionieren, wenn das Verhältnis von 0 Klassen zu 1 Klassen stark verzerrt ist.
Also, in den oben genannten, zum Beispiel, wenn es ein-hundert Klassen für jede einzelne - Klasse, würde ich sagen , die Klasse Ungleichgewicht ist zu oder .
Den meisten Aussagen zu dem Problem, die ich gesehen habe, fehlt das, was ich für eine ausreichende Qualifikation halte (welche Modelle kämpfen, wie unausgewogen ein Problem ist), und dies ist eine Quelle meiner Verwirrung.
Eine Übersicht über die Standardtexte im maschinellen / statistischen Lernen ergibt wenig:
- Elemente des statistischen Lernens und der Einführung in das statistische Lernen enthalten kein "Klassenungleichgewicht" im Index.
Maschinelles Lernen für Predictive Data Analytics enthält im Index auch kein "Klassenungleichgewicht".
Murphy Machine Learning: Eine probabilistische Perspektive hat „Klasse Ungleichgewicht * im Index enthalten Der Verweis auf einen Abschnitt über die SVM ist ist, wo ich die folgende verlockende Kommentar vorhanden.:
Es sei daran erinnert, dass all diese Schwierigkeiten und die Fülle von Heuristiken, die vorgeschlagen wurden, um sie zu beheben, im Wesentlichen darauf zurückzuführen sind, dass SVMs Unsicherheiten nicht anhand von Wahrscheinlichkeiten modellieren, sodass ihre Output-Scores nicht klassenübergreifend vergleichbar sind.
Dieser Kommentar steht in Einklang mit meiner Intuition und Erfahrung: Bei meinem vorherigen Job haben wir routinemäßig logistische Regressionen und gradientenverstärkte Baummodelle (um die Wahrscheinlichkeit von binomialen Logarithmen zu minimieren) mit unausgeglichenen Daten (in der Größenordnung eines Klassenungleichgewichts von ) in Einklang gebracht offensichtliche Probleme bei der Leistung.
Ich habe (irgendwo) gelesen, dass auf Klassifikationsbäumen basierende Modelle (Bäume selbst und zufällige Wälder) ebenfalls unter dem Problem des Klassenungleichgewichts leiden. Dies trübt das Wasser ein wenig, Bäume geben in gewisser Weise Wahrscheinlichkeiten zurück: Der Abstimmungsdatensatz für die Zielklasse in jedem Endknoten des Baums.
Um es zusammenzufassen, ich bin wirklich auf der Suche nach einem konzeptionellen Verständnis der Kräfte, die zum Problem des Klassenungleichgewichts führen (falls vorhanden).
- Tun wir uns das mit schlecht gewählten Algorithmen und faulen Standardklassifizierungsschwellen?
- Verschwindet es, wenn wir immer Wahrscheinlichkeitsmodelle anpassen, die die richtigen Bewertungskriterien optimieren? Anders gesagt, ist die Ursache einfach eine schlechte Wahl der Verlustfunktion, dh die Bewertung der Vorhersagekraft eines Modells auf der Grundlage strenger Klassifizierungsregeln und der Gesamtgenauigkeit?
- Wenn ja, sind Modelle, die die richtigen Bewertungsregeln nicht optimieren, dann nutzlos (oder zumindest weniger nützlich)?
(*) Mit Klassifizierung meine ich jedes statistische Modell, das an binäre Antwortdaten angepasst ist. Ich gehe nicht davon aus, dass mein Ziel eine schwere Aufgabe für die eine oder andere Klasse ist, auch wenn es so sein mag.
poor choice of loss function
in meine Liste aufzunehmen. Glauben Sie also, dass dies auch für ordnungsgemäße Bewertungsregeln als Verlustfunktionen zutrifft?