Erstellen eines unausgeglichenen Datensatzes


11

Ich möchte mein trainiertes Modell an einem unausgeglichenen Datensatz testen lassen. Gibt es Algorithmen, um synthetische Daten aus einem ausgewogenen, beschrifteten Datensatz (Spam / Nicht-Spam) zu generieren?


Sie können jeden Datensatz jederzeit aus dem Gleichgewicht bringen, indem Sie einfach eine Klasse unterabtasten.
user2974951

Antworten:


8

Probieren Sie SMOTE aus , einen Algorithmus, der für die Überabtastung verwendet wird. Es werden synthetische Samples aus der Klasse erstellt, die überabgetastet werden soll.

Sie können dies verwenden, um eine beliebige Anzahl von Proben zu erstellen, die Sie benötigen.


1
Kann SMOTE auch für die Unterabtastung verwendet werden?
Stuart Peterson

Nun, Sie können eine Unterabtastung der Klasse A erhalten, indem Sie die Klasse notA überabtasten ...
kjetil b halvorsen

3
@StuartPeterson Nein, SMOTE ist ein Überabtastungsalgorithmus, aber es gibt viele andere Unterabtastungsalgorithmen
Mary93
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.