Probleme mit dem Klassenungleichgewicht können entweder durch kostensensitives Lernen oder Resampling behoben werden. Siehe Vor- und Nachteile von kostensensitiven Lernen vs. Probenahme , copypasted unter:
{1} enthält eine Liste der Vor- und Nachteile des kostensensitiven Lernens im Vergleich zur Stichprobe:
2.2 Probenahme
Über- und Unterabtastung können verwendet werden, um die Klassenverteilung der Trainingsdaten zu ändern, und beide Methoden wurden verwendet, um das Klassenungleichgewicht zu behandeln [1, 2, 3, 6, 10, 11]. Der Grund, warum das Ändern der Klassenverteilung der Trainingsdaten das Lernen mit stark verzerrten Datensätzen unterstützt, ist, dass es effektiv ungleichmäßige Fehlklassifizierungskosten verursacht. Wenn man beispielsweise die Klassenverteilung des Trainingssatzes so ändert, dass das Verhältnis von positiven zu negativen Beispielen von 1: 1 zu 2: 1 geht, hat man effektiv ein Fehlklassifizierungskostenverhältnis von 2: 1 zugewiesen. Diese Äquivalenz zwischen der Änderung der Klassenverteilung der Trainingsdaten und der Änderung der Fehlklassifizierungskostenquote ist bekannt und wurde von Elkan formell beschrieben [9].
Es sind Nachteile bekannt, die mit der Verwendung von Stichproben zur Implementierung von kostensensitivem Lernen verbunden sind. Der
Nachteil bei Unterabtastung besteht darin, dass potenziell nützliche Daten verworfen werden . Der Hauptnachteil bei der Überabtastung besteht aus unserer Sicht darin, dass durch exakte Kopien vorhandener Beispiele eine Überanpassung wahrscheinlich wird . In der Tat ist es bei Überabtastungen üblich, dass ein Lernender eine Klassifizierungsregel generiert, die ein einzelnes, repliziertes Beispiel abdeckt. Ein zweiter Nachteil der Überabtastung ist, dass sie die Anzahl der Trainingsbeispiele erhöht und somit die Lernzeit verlängert .
2.3 Warum Sampling verwenden?
In Anbetracht der Nachteile der Stichprobenerfassung lohnt es sich zu fragen, warum jemand sie anstelle eines kostensensitiven Lernalgorithmus für den Umgang mit Daten mit einer verzerrten Klassenverteilung und ungleichmäßigen Fehlklassifizierungskosten verwenden würde. Dafür gibt es mehrere Gründe. Der offensichtlichste Grund dafür ist, dass nicht alle Lernalgorithmen kostensensitiv implementiert sind. Daher ist ein wrapperbasierter Ansatz mit Stichproben die einzige Option. Während dies heute sicherlich weniger wahr ist als in der Vergangenheit, behandeln viele Lernalgorithmen (z. B. C4.5) die Kosten im Lernprozess immer noch nicht direkt.
Ein zweiter Grund für die Verwendung von Stichproben ist, dass viele stark verzerrte Datensätze enorm sind und die Größe des Trainingssatzes reduziert werden muss, damit das Lernen möglich ist. In diesem Fall scheint Unterabtastung eine vernünftige und gültige Strategie zu sein. In diesem Artikel wird die Notwendigkeit, die Größe des Trainingssatzes zu reduzieren, nicht berücksichtigt. Wir möchten jedoch darauf hinweisen, dass es für den Fall, dass einige Trainingsdaten verworfen werden müssen, dennoch von Vorteil sein kann, einige der Beispiele der Mehrheitsklassen zu verwerfen, um die Größe des Trainingssatzes auf die erforderliche Größe zu reduzieren, und dann auch einen Kostenfaktor zu verwenden. sensibler Lernalgorithmus, so dass die Menge der verworfenen Trainingsdaten minimiert wird.
Ein letzter Grund, der möglicherweise eher zur Verwendung von Stichproben als zu einem kostensensitiven Lernalgorithmus beigetragen hat, ist, dass Fehlklassifizierungskosten häufig nicht bekannt sind. Dies ist jedoch kein triftiger Grund für die Verwendung von Stichproben über einen kostensensitiven Lernalgorithmus, da das analoge Problem bei Stichproben auftritt - wie sollte die Klassenverteilung der endgültigen Trainingsdaten sein? Wenn diese Kosteninformation nicht bekannt ist, könnte ein Maß wie die Fläche unter der ROC-Kurve verwendet werden, um die Klassifikatorleistung zu messen, und beide Ansätze könnten dann empirisch das richtige Kostenverhältnis / Klassenverteilung bestimmen.
Sie führten auch eine Reihe von Experimenten durch, die nicht schlüssig waren:
Basierend auf den Ergebnissen aller Datensätze gibt es keinen endgültigen Gewinner zwischen kostensensitivem Lernen, Über- und Unterabtastung
Sie versuchen dann zu verstehen, welche Kriterien in den Datensätzen möglicherweise darauf hindeuten, welche Technik besser geeignet ist.
Sie bemerken auch, dass SMOTE einige Verbesserungen bringen kann:
Es gibt eine Vielzahl von Verbesserungen, die Menschen vorgenommen haben, um die Wirksamkeit der Probenahme zu verbessern. Einige dieser Verbesserungen umfassen die Einführung neuer „synthetischer“ Beispiele beim Überabtasten [5 -> SMOTE], das Löschen weniger nützlicher Mehrheitsbeispiele beim Unterabtasten [11] und die Verwendung mehrerer Unterabtastwerte, wenn in mindestens einem Beispiel ein Unterabtasten verwendet wird Unterprobe [3]. Während diese Techniken mit Über- und Unterabtastung verglichen wurden, wurden sie im Allgemeinen nicht mit kostensensitiven Lernalgorithmen verglichen. Dies wäre in Zukunft ein Studium wert.
{1} Weiss, Gary M., Kate McCarthy und Bibi Zabar. "Kostensensitives Lernen im Vergleich zur Stichprobe: Welche Methode eignet sich am besten zur Behandlung von unausgeglichenen Klassen mit ungleichen Fehlerkosten?" DMIN 7 (2007): 35 & ndash; 41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=de&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf