Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?


8

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken):

id, age, income, gender, job category, monthly spend

in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, und der vorherzusagende Datensatz (der id, age, income, gender, job categorykeine Antwortvariable enthält ) enthält 1 Million Zeilen. Meine Frage ist: Gibt es potenzielle Probleme, wenn ich zu viele Zeilen (in diesem Fall 3 Millionen) in ein statistisches Modell wirf? Ich verstehe, dass der Rechenaufwand eines der Probleme ist. Gibt es andere Probleme? Gibt es Bücher / Papiere, die das Problem der Datensatzgröße vollständig erklären?

modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

15
Zu viele Zeilen führen nicht zu einer Überanpassung. Zu viele Spalten reichen aus.
Peter Flom

5
Da diese Frage auf mehreren falschen Annahmen beruht - dass Menschen viele Fälle nur ungern für Analysen verwenden und die meisten statistischen Modelle nicht mit großen Datenmengen umgehen können -, werden wahrscheinlich irrelevante oder verwirrende Antworten akkumuliert. Bitte bearbeiten Sie Ihre Frage, um diese falschen Darstellungen zu entfernen.
whuber

Sie haben jedoch immer noch nicht berücksichtigt, was @whuber gesagt hat. Die Räumlichkeiten sind falsch. Es ist nicht wahr, dass "die meisten statistischen Modelle nicht mit großen Datenmengen umgehen können", daher erhalten Sie keine nützliche Antwort auf Ihre Frage. Es ist auch nicht wahr, dass Sie Informationen über alle Menschen in einem Land zu einem bestimmten Zeitpunkt verwenden können (ich denke, das ist es, was Sie unter "Bevölkerung" verstehen).
pkofod

2
ID ist, wenn dies eine vernünftige Analyse ist, keine einzelne kontinuierliche Variable. ID ist eine kategoriale Variable, da die Unterschiede zwischen Personen nicht der willkürlichen numerischen Zuordnung entsprechen, die sie erhalten. Das heißt, Sie haben 1 Variable für jede Person in der Analyse. Potenziell Millionen.
AdamO

Vielen Dank für den Kommentar, aber ich bin immer noch verwirrt, warum ich nicht zu einem bestimmten Zeitpunkt Informationen über alle Menschen in einem Land verwenden kann (dies ist ein erfundenes Beispiel. Nehmen wir also an, ich habe diese Informationen).
user2926523

Antworten:


12

Es gibt zwei Arten von Problemen, auf die Sie stoßen könnten:

1) Computerprobleme, weil der Datensatz zu groß ist. Heutzutage sind ein paar Millionen Zeilen mit 6 Spalten einfach nicht so groß. Aber abhängig von Ihrem Programm, Ihrem Computer, Ihrer RAM-Größe und wahrscheinlich anderen Dingen kann es zu einem Stillstand kommen.

2) Statistische Probleme. Hier hat ein Problem, das Sie diskutieren, ein "Problem", von dem ich weiß: Selbst winzige Effekte sind von großer Bedeutung. Dies ist kein wirkliches Problem mit der Regression, sondern ein Problem mit p-Werten. Betrachten Sie besser die Effektgrößen (Regressionsparameter).

3) Eine andere Art von Problem mit Ihrem Modell ist nicht auf die Anzahl der Zeilen zurückzuführen, sondern auf die Art der Antwortvariablen (monatliche Ausgaben). Obwohl die OLS-Regression keine Annahmen über die Verteilung der Antwort (nur über den Fehler) macht, weisen Modelle mit Geld als abhängiger Variable häufig nicht normale Fehler auf. Darüber hinaus ist es häufig inhaltlich sinnvoll, das Protokoll der Antwort zu führen. Ob dies in Ihrem Fall der Fall ist, hängt davon ab, was Sie genau versuchen.


Hallo Peter, kannst du bitte genauer erklären, warum die Antwortvariable (dh die monatlichen Ausgaben) protokolliert werden sollte? Welchen Nutzen können wir daraus ziehen?
Shihpeng

1
1000tÖ10tÖ

2

Wichtig ist die Anzahl der Personen (Zeilen) im Vergleich zur Anzahl der Koeffizienten, die Sie für das Modell schätzen müssen, das Sie anpassen möchten. Typische Faustregeln schlagen mindestens 20 Beobachtungen pro Koeffizient vor, sodass Sie in der Lage sein sollten, bis zu 150.000 Koeffizienten zu schätzen - sicherlich mehr als ausreichend für Ihre vier Prädiktoren.

Tatsächlich haben Sie in diesem Fall die Möglichkeit, kein Problem: ein ziemlich komplexes Modell anzupassen, das nichtlineare Beziehungen der Reaktion auf Prädiktoren und Interaktionen zwischen Prädiktoren enthält; Dies kann die Antwort viel besser vorhersagen als eine einfachere, bei der angenommen wird, dass die Beziehungen der Antwort zu Prädiktoren linear und additiv sind.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.