Ich arbeite mit dem MovieLens10M-Datensatz und sage Benutzerbewertungen voraus. Wie sollte ich meine Trainings- und Testdaten aufteilen, wenn ich meinen Algorithmus fair bewerten möchte?
Ich glaube, dass die Daten standardmäßig in Zug-Test-Sets aufgeteilt sind, in denen 'Test' Filme enthält, die zuvor im Trainingssatz nicht gesehen wurden. Wie muss ich meine Daten aufteilen, wenn mein Modell erfordert, dass jeder Film mindestens einmal im Trainingssatz gesehen wurde? Sollte ich alle Bewertungen bis auf N aller Benutzer für alle Daten verwenden und meine Leistung anhand der gehaltenen NxUser_num-Bewertungen bewerten?