Ich verwende Python, um ein zufälliges Gesamtstrukturmodell für mein unausgeglichenes Dataset auszuführen (die Zielvariable war eine Binärklasse). Bei der Aufteilung des Trainings- und Testdatensatzes hatte ich Probleme, geschichtete Stichproben (wie der gezeigte Code) zu verwenden oder nicht. Bisher stellte ich in meinem Projekt fest, dass der geschichtete Fall zu einer höheren Modellleistung führen würde. Aber ich denke, wenn ich mein Modell verwenden werde, um die neuen Fälle vorherzusagen, die sich höchstwahrscheinlich in der Verteilung der Zielklasse mit meinem aktuellen Datensatz unterscheiden würden. Also neigte ich dazu, diese Einschränkung zu lösen und die nicht geschichtete Aufteilung zu verwenden. Kann mir jemand einen Rat geben, um diesen Punkt zu klären?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)