Das Markieren von Ausreißern ist kein Entscheidungsgrund (oder muss es auf keinen Fall sein). Bei einem statistischen Modell haben Ausreißer eine genaue, objektive Definition: Es handelt sich um Beobachtungen, die nicht dem Muster der meisten Daten folgen . Solche Beobachtungen müssen zu Beginn einer Analyse einfach deshalb auseinandergesetzt werden, weil ihre Entfernung von der Masse der Daten sicherstellt, dass sie bei jedem multivariablen Modell mit maximaler Wahrscheinlichkeit (oder in der Tat bei jeder anderen Funktion mit konvexem Verlust) einen unverhältnismäßigen Einfluss ausüben.
Es ist wichtig , dass die multivariable Ausreißer darauf hinzuweisen, s einfach nicht zuverlässig Residuen von einem kleinsten Fehlerquadrat (oder jedem anderen Modell von ML, oder jeder anderen konvexen Verlustfunktion geschätzt) detektiert werden kann. Einfach ausgedrückt, können multivariable Ausreißer nur anhand ihrer Residuen aus einem Modell, das mit einem Schätzverfahren angepasst wurde, das nicht von ihnen beeinflusst werden kann, zuverlässig erkannt werden.
Die Überzeugung, dass Ausreißer in den Residuen einer klassischen Anpassung von Bedeutung sein werden, wird irgendwo dort oben mit anderen schwer zu entlarvenden statistischen Nein-Nein-Werten wie der Interpretation von p-Werten als Beweismaß oder dem Rückschluss auf eine Population aus einer voreingenommenen Stichprobe verglichen. Mit der Ausnahme, dass dieser wahrscheinlich viel älter ist: Gauß selbst empfahl die Verwendung eines robusten Schätzers wie dem Median und dem Mad (anstelle des klassischen Mittelwerts und der Standardabweichungen), um die Parameter einer Normalverteilung aus verrauschten Beobachtungen zu schätzen (auch wenn sie noch laufen) soweit der Konsistenzfaktor des Verrückten abgeleitet wird (1).
Um ein einfaches visuelles Beispiel basierend auf realen Daten zu geben, betrachten Sie die berüchtigten CYG-Sterndaten . Die rote Linie zeigt hier die Anpassung des kleinsten Quadrats, die blaue Linie die Anpassung, die mit einer robusten linearen Regressionsanpassung erhalten wurde. Die robuste Anpassung ist hier nämlich die FastLTS (2) -Anpassung, eine Alternative zur LS-Anpassung, mit der Ausreißer erkannt werden können (da ein Schätzverfahren verwendet wird, mit dem sichergestellt wird, dass der Einfluss einer Beobachtung auf den geschätzten Koeffizienten begrenzt wird). Der zu reproduzierende R-Code lautet:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
Interessanterweise haben die 4 äußeren Beobachtungen auf der linken Seite nicht einmal die größten Residuen in Bezug auf die LS - Anpassung und das QQ - Diagramm der Residuen der LS - Anpassung (oder eines der daraus abgeleiteten Diagnosewerkzeuge wie die Cook - Entfernung oder die dfbeta) zeigen keine von ihnen als problematisch. Dies ist eigentlich die Norm: Es sind nicht mehr als zwei Ausreißer erforderlich (unabhängig von der Stichprobengröße), um die LS-Schätzungen so zu ziehen, dass die Ausreißer in einem Restplot nicht auffallen würden. Dies wird als Maskierungseffekt bezeichnetund es ist gut dokumentiert. Vielleicht ist das Einzige, was am CYGstars-Datensatz auffällt, dass er bivariat ist (daher können wir das Ergebnis des robusten Sitzes visuell überprüfen) und dass es tatsächlich eine gute Erklärung dafür gibt, warum diese vier Beobachtungen auf der linken Seite so abnormal sind.
Dies ist übrigens die Ausnahme mehr als die Regel: Außer in kleinen Pilotstudien mit kleinen Stichproben und wenigen Variablen und wenn die Person, die die statistische Analyse durchführt, auch in den Datenerfassungsprozess involviert war, habe ich noch nie einen Fall erlebt, in dem vorhergehende Überzeugungen darüber bestanden Die Identität der Ausreißer stimmte tatsächlich. Dies ist übrigens recht einfach zu überprüfen. Unabhängig davon, ob Ausreißer mithilfe eines Ausreißererkennungsalgorithmus oder des Darmgefühls des Forschers identifiziert wurden, handelt es sich bei Ausreißern definitionsgemäß um Beobachtungen, die eine abnormale Hebelwirkung (oder „Zugkraft“) gegenüber den aus einer LS-Anpassung erhaltenen Koeffizienten aufweisen. Mit anderen Worten, Ausreißer sind Beobachtungen, deren Entfernung aus der Probe den LS-Fit stark beeinflussen sollte.
Auch wenn ich das noch nie persönlich erlebt habe, gibt es in der Literatur einige gut dokumentierte Fälle, in denen Beobachtungen, die von einem Ausreißererkennungsalgorithmus als Ausreißer gekennzeichnet wurden, als grobe Fehler oder durch einen anderen Prozess hervorgerufen wurden. In jedem Fall ist es weder wissenschaftlich gerechtfertigt noch sinnvoll, Ausreißer nur dann zu entfernen, wenn sie irgendwie verstanden oder erklärt werden können. Wenn eine kleine Ansammlung von Beobachtungen so weit vom Hauptteil der Daten entfernt ist, dass sie die Ergebnisse eines statistischen Verfahrens im Alleingang abrufen kann, ist es ratsam (und ich könnte natürlich hinzufügen), sie unabhängig davon zu behandeln, ob oder Nicht diese Datenpunkte sind zufällig auch aus anderen Gründen verdächtig.
(1): siehe Stephen M. Stigler, Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900.
(2): Berechnung der LTS-Regression für große Datenmengen (2006) PJ Rousseeuw, K. van Driessen.
(3): Robuste multivariate Hochleistungsverfahren (2008). Hubert M., Rousseeuw PJ und Van Aelst S. Quelle: Statist. Sci. Band 23, 92-119.