Wenn Ihre Daten einen einzelnen Ausreißer enthalten, können sie mit dem von Ihnen vorgeschlagenen Ansatz zuverlässig gefunden werden (allerdings ohne die Iterationen). Ein formeller Ansatz hierfür ist
Cook, R. Dennis (1979). Einflussreiche Beobachtungen in der linearen Regression . Journal of the American Statistical Association (Amerikanische statistische Vereinigung) 74 (365): 169–174.
Um mehr als einen Ausreißer über viele Jahre hinweg zu finden, war die führende Methode die sogenannte Bestimations - Ansatzfamilie. Dies ist eine ziemlich breite Familie von Schätzern, zu denen Hubers Schätzer der Regression, Koenkers L1-Regression sowie der von Procastinator in seinem Kommentar zu Ihrer Frage vorgeschlagene Ansatz gehören. Die Schätzer mit konvexen Funktionen haben den Vorteil, dass sie in etwa die gleiche numerische Komplexität haben wie eine reguläre Regressionsschätzung. Der große Nachteil ist, dass sie die Ausreißer nur zuverlässig finden können, wenn:M M ρMMMρ
- Die Kontaminationsrate Ihrer Probe ist kleiner als wobei die Anzahl der Entwurfsvariablen ist. p11+pp
- oder wenn sich die Ausreißer nicht im Entwurfsraum befinden (Ellis und Morgenthaler (1992)).
Eine gute Implementierung von ( ) Regressionsschätzungen finden Sie im ( ) -Paket. l 1Ml1robustbase
quantreg
R
Wenn Ihre Daten mehr als Ausreißer enthalten, die möglicherweise auch außerhalb des Entwurfsbereichs liegen, dann bedeutet das Auffinden, dass ein kombinatorisches Problem gelöst wird (entsprechend der Lösung eines Schätzers mit neuem absteigende / nicht konvexe Funktion). Mρ⌊np+1⌋Mρ
In den letzten 20 Jahren (und insbesondere in den letzten 10 Jahren) wurde eine Vielzahl schneller und zuverlässiger Ausreißererkennungsalgorithmen entwickelt, um dieses kombinatorische Problem näherungsweise zu lösen. Diese sind mittlerweile in den gängigsten Statistikpaketen (R, Matlab, SAS, STATA, ...) weit verbreitet.
Die numerische Komplexität der Ermittlung von Ausreißern mit diesen Ansätzen liegt jedoch typischerweise in der Größenordnung von . Die meisten Algorithmen können in der Praxis für Werte von im mittleren Teenageralter verwendet werden. In der Regel sind diese Algorithmen in (Anzahl der Beobachtungen) linear, sodass die Anzahl der Beobachtungen kein Problem darstellt. Ein großer Vorteil ist, dass die meisten dieser Algorithmen peinlich parallel sind. In jüngerer Zeit wurden viele Ansätze speziell für höherdimensionale Daten vorgeschlagen.p nO(2p)pn
Da Sie in Ihrer Frage nicht angegeben haben , werde ich einige Referenzen für den Fall . Im Folgenden finden Sie einige Artikel, die dies in dieser Reihe von Übersichtsartikeln näher erläutern:p < 20pp<20
Rousseeuw, PJ und van Zomeren BC (1990). Demaskierung multivariater Ausreißer und Hebelpunkte . Journal of the American Statistical Association , Bd. 85, Nr. 411, S. 633-639.
Rousseeuw, PJ und Van Driessen, K. (2006). Berechnen der LTS-Regression für große Datenmengen . Archiv für Data Mining und Knowledge Discovery, Band 12, Ausgabe 1, Seiten 29 - 45.
Hubert, M., Rousseeuw, PJ und Van Aelst, S. (2008). Robuste multivariate Methoden mit hoher Ausfallrate . Statistical Science , Vol. 1, 92–119
Ellis SP und Morgenthaler S. (1992). Hebelwirkung und Zusammenbruch der L1-Regression. Journal of the American Statistical Association , Bd. 87, Nr. 417, S. 143-148
Ein aktuelles Nachschlagewerk zum Problem der Ausreißeridentifikation ist:
Maronna RA, Martin RD und Yohai VJ (2006). Robuste Statistik: Theorie und Methoden . Wiley, New York.
Diese (und viele andere Variationen dieser) Methoden sind (unter anderem) im Paket implementiert.robustbase
R