Ich möchte eine Kombination aus Über- und Unterabtastung durchführen, um meinen Datensatz mit ungefähr 4000 Kunden in zwei Gruppen auszugleichen, wobei eine der Gruppen einen Anteil von ungefähr 15% hat.
Ich habe mir SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) und ROSE ( http://cran.r-project.org/web/packages/ROSE/) angesehen. ROSE.pdf ), aber beide erzeugen neue synthetische Proben unter Verwendung bestehender Beobachtungen und z. B. kNN.
Da jedoch viele der mit den Kunden verbundenen Attribute kategorisch sind, denke ich nicht, dass dies der richtige Weg ist. Zum Beispiel schließen sich viele meiner Variablen wie Region_A und Region_B gegenseitig aus, aber mit kNN können die neuen Beobachtungen sowohl in Region_A als auch in Region_B platziert werden. Stimmen Sie zu, dass dies ein Problem ist?
In diesem Fall - wie führt man eine Überabtastung in R durch, indem man einfach vorhandene Beobachtungen dupliziert? Oder ist das der falsche Weg?