Wann sollten wir einen Datensatz als unausgewogen betrachten?


10

Ich bin mit einer Situation konfrontiert, in der die Anzahl der positiven und negativen Beispiele in einem Datensatz unausgewogen ist.

Meine Frage ist, gibt es Faustregeln, die uns sagen, wann wir die große Kategorie unterabtasten sollten, um eine Art Ausgleich im Datensatz zu erzwingen.

Beispiele:

  • Wenn die Anzahl der positiven Beispiele 1.000 und die Anzahl der negativen Beispiele 10.000 beträgt, sollte ich meinen Klassifikator auf den vollständigen Datensatz trainieren oder die negativen Beispiele unterabtasten?
  • Die gleiche Frage für 1.000 positive Beispiele und 100.000 negative.
  • Die gleiche Frage für 10.000 positive und 1.000 negative.
  • usw...

Es ist nichts falsch mit Datensätzen, die per se nicht perfekt in der Mitte aufgeteilt sind. Welche Modellierungstechnik verwenden Sie? Wenn die Technik auf "ausgeglichenen" Daten beruht, verwenden Sie möglicherweise die falsche Technik.
D3C34C34D

1
Nina Zumel sucht die Auswirkungen auf verschiedenen Schätzern Ausgleich hier , kann dies andere auch helfen. Sie betrachtet zufällige Wälder, SVM und eine Logit-Schätzung.
CFM

Antworten:


9

Ich denke, Subsampling (Downsampling) ist eine beliebte Methode, um das Klassenungleichgewicht auf der Basisebene zu kontrollieren, was bedeutet, dass es die Wurzel des Problems behebt. Für alle Ihre Beispiele würde es also funktionieren, jedes Mal zufällig 1.000 der Mehrheit der Klasse auszuwählen. Sie könnten sogar mit 10 Modellen herumspielen (10 Falten mit 1.000 Mehrheit gegenüber 1.000 Minderheit), damit Sie Ihren gesamten Datensatz verwenden können. Sie können diese Methode verwenden, aber Sie werfen 9.000 Samples weg, es sei denn, Sie probieren einige Ensemble-Methoden aus. Einfache Lösung, aber schwierig, ein optimales Modell basierend auf Ihren Daten zu erhalten.

Inwieweit Sie das Klassenungleichgewicht kontrollieren müssen, hängt weitgehend von Ihrem Ziel ab. Wenn Sie sich für eine reine Klassifizierung interessieren, wirkt sich ein Ungleichgewicht auf die 50% ige Wahrscheinlichkeit aus, die für die meisten Techniken abgeschnitten wurde. Daher würde ich ein Downsampling in Betracht ziehen. Wenn Sie sich nur um die Reihenfolge der Klassifizierungen kümmern (positive Ergebnisse sind im Allgemeinen höher als negative) und ein Maß wie AUC verwenden, wird das Klassenungleichgewicht nur Ihre Wahrscheinlichkeiten beeinflussen, aber die relative Reihenfolge sollte für die meisten Techniken anständig stabil sein.

Logistische Regression ist gut für Klassenungleichgewichte, denn solange Sie> 500 der Minderheitsklasse haben, sind die Schätzungen der Parameter genau genug und die einzige Auswirkung wird auf den Achsenabschnitt sein, der korrigiert werden kann, wenn Sie dies möchten wollen. Die logistische Regression modelliert die Wahrscheinlichkeiten und nicht nur die Klassen, sodass Sie mehr manuelle Anpassungen vornehmen können, um sie Ihren Anforderungen anzupassen.

Viele Klassifizierungstechniken haben auch ein Argument für die Klassengewichtung, mit dem Sie sich stärker auf die Minderheitsklasse konzentrieren können. Es wird eine Fehlklassifizierung einer echten Minderheitenklasse bestrafen, so dass Ihre allgemeine Genauigkeit ein wenig darunter leidet, aber Sie werden mehr Minderheitenklassen sehen, die korrekt klassifiziert sind.


Könnten Sie Ihre Anleitung erweitern, "solange Sie> 500 der Minderheitsklasse haben"? Woher hast du diese Nummer von 500? Basiert es auf Ihrer Erfahrung? Ich habe einen Prozentsatz von Ihrer Antwort erwartet.
Jas

2

Das Ungleichgewicht ist formal nicht definiert, aber ein Verhältnis von 1 zu 10 ist normalerweise unausgeglichen genug, um von der Verwendung der Auswuchttechnik zu profitieren.

Es gibt zwei Arten von Ungleichgewichten: relative und absolute. Im Verhältnis sind die Verhältnisse zwischen Mehrheits- und Minderheitsklassen unausgewogen. In absoluten Zahlen haben Sie auch eine kleine Anzahl von Minderheitenstichproben. Je höher das Ungleichgewichtsverhältnis ist, desto wahrscheinlicher ist es, dass Sie auch ein absolutes Ungleichgewicht erreichen.

Bitte beachten Sie, dass eine einfache Unterabtastung kein optimaler Weg ist, um mit unausgeglichenen Datensätzen umzugehen. Dies liegt daran, dass Sie einen Klassifizierer erstellen sollten, der für Ihr ursprüngliches Dataset eine gute Leistung erbringt. Eine Technik zum Erstellen von Klassifikatoren für unausgeglichene Datensätze finden Sie hier . Informationen zur Bewertung Ihres Klassifikators finden Sie hier .


2

Datenungleichgewicht Problem? Theoretisch geht es nur um Zahlen. Selbst wenn die Differenz 1 Stichprobe beträgt, handelt es sich um ein Datenungleichgewicht

In der Praxis wird die Aussage, dass dies ein Problem des Datenungleichgewichts ist, durch drei Dinge gesteuert: 1. Die Anzahl und Verteilung der Stichproben, die Sie haben 2. Die Variation innerhalb derselben Klasse 3. Die Ähnlichkeiten zwischen verschiedenen Klassen

Die letzten beiden Punkte ändern, wie wir unser Problem betrachten.

Um dies zu erklären, möchte ich ein Beispiel geben: Klasse A = 100 Stichproben Klasse B = 10 000

Wenn die Abweichung innerhalb der Klasse B sehr gering ist, reicht eine Abwärtsabtastung aus, und es gibt kein Problem mit dem Datenungleichgewicht

Wenn die Abweichung innerhalb der Klasse b sehr hoch ist, kann eine Abwärtsabtastung zu einem Informationsverlust führen. Eine Abwärtsabtastung ist gefährlich

Ein weiterer Punkt, bei dem viele Stichproben (hauptsächlich für die Minderheitsklasse) vorhanden sind, wird das Problem des Datenungleichgewichts lösen und die Behandlung erleichtern

ZB 10: 100. Vs. 1000: 10 000

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.