Trainingsansätze für stark unausgeglichene Datensätze

16

Ich habe einen stark unausgeglichenen Testdatensatz. Die positive Menge besteht aus 100 Fällen, während die negative Menge aus 1500 Fällen besteht. Auf der Trainingsseite habe ich einen größeren Kandidatenpool: Der positive Trainingssatz umfasst 1200 Fälle und der negative Trainingssatz umfasst 12000 Fälle. Für diese Art von Szenario habe ich mehrere Möglichkeiten:

1) Verwenden von gewichtetem SVM für den gesamten Trainingssatz (P: 1200, N: 12000)

2) Unter Verwendung von SVM basierend auf dem abgetasteten Trainingssatz (P: 1200, N: 1200) werden die 1200 negativen Fälle aus 12000 Fällen abgetastet.

Gibt es theoretische Leitlinien für die Entscheidung, welcher Ansatz besser ist? Sollte ich das unausgeglichene Trainingsset auch verwenden, da der Testdatensatz sehr unausgeglichen ist?

— Bit-Frage
quelle

1

Bitte überprüfen Sie die folgenden Fragen: Überwachtes Lernen mit „seltenen“ Ereignissen und beste Möglichkeit, mit nicht ausgeglichenen Datenmengen aus mehreren Klassen mit SVM umzugehen . Hilft das ? Ehrlich gesagt, deine Fragen klingen ziemlich ähnlich;).

— Steffen

7

Von einem kürzlich veröffentlichten Beitrag auf reddit wird die Antwort von datapraxis von Interesse sein.

bearbeiten: das erwähnte Papier ist Haibo He, Edwardo A. Garcia, "Lernen aus unausgeglichenen Daten", IEEE Transactions on Knowledge and Data Engineering, S. 1263-1284, September 2009 (PDF)

— user728785
quelle

0

Paarweise erweiterte logistische Regression, ROC-basiertes Lernen, Boosting und Bagging (Bootstrap-Aggregation), Link-basiertes Cluster-Ensemble (LCE), Bayesianisches Netzwerk, Nearest Centroid Classifiers, Bayesianische Techniken, gewichtete grobe Menge, k-NN

und eine Menge von Probenahmemethoden, um Ungleichgewicht zu behandeln.

— Vladimir Chupakhin
quelle