Häufig erhält ein statistischer Analytiker einen Datensatz und wird gebeten, ein Modell mit einer Technik wie der linearen Regression anzupassen. Sehr häufig wird der Datensatz mit einem Haftungsausschluss in der Art von "Oh ja, wir haben es vermasselt, einige dieser Datenpunkte zu sammeln - tun Sie, was Sie können" versehen.
Diese Situation führt zu Regressionsanpassungen, die stark von Ausreißern beeinflusst werden, bei denen es sich möglicherweise um fehlerhafte Daten handelt. Angesichts der folgenden:
Es ist sowohl aus wissenschaftlicher als auch aus moralischer Sicht gefährlich, Daten aus keinem anderen Grund herauszuwerfen, als "die Passform sieht schlecht aus".
Im wirklichen Leben stehen die Personen, die die Daten gesammelt haben, häufig nicht zur Verfügung, um Fragen wie "Welche der Punkte haben Sie bei der Erstellung dieses Datensatzes genau durcheinander gebracht?" Zu beantworten.
Welche statistischen Tests oder Faustregeln können als Grundlage für den Ausschluss von Ausreißern in der linearen Regressionsanalyse verwendet werden?
Gibt es spezielle Überlegungen zur multilinearen Regression?