Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken):
id, age, income, gender, job category, monthly spend
in dem monthly spend
ist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, und der vorherzusagende Datensatz (der id, age, income, gender, job category
keine Antwortvariable enthält ) enthält 1 Million Zeilen. Meine Frage ist: Gibt es potenzielle Probleme, wenn ich zu viele Zeilen (in diesem Fall 3 Millionen) in ein statistisches Modell wirf? Ich verstehe, dass der Rechenaufwand eines der Probleme ist. Gibt es andere Probleme? Gibt es Bücher / Papiere, die das Problem der Datensatzgröße vollständig erklären?