Ich habe einen Datensatz, den ich als Betrug / nicht Betrug klassifizieren möchte, und ich habe viele schwache Lernende. Ich mache mir Sorgen, dass es viel mehr Betrug als Betrug gibt, sodass meine schwachen Lernenden eine überdurchschnittliche Leistung erbringen, aber keine über 50% Genauigkeit im gesamten Satz.
Meine Frage ist, ob ich Test- und Trainingssets einrichten soll, die halb Betrug und halb Betrug sind, oder ob ich nur eine repräsentative Stichprobe verwenden soll.