Ich beantworte Ihre Fragen in umgekehrter Reihenfolge, in der Sie sie gestellt haben, damit die Darlegung vom Besonderen zum Allgemeinen übergeht.
Lassen Sie uns zunächst eine Situation betrachten, in der Sie davon ausgehen können, dass mit Ausnahme einer Minderheit von Ausreißern der Großteil Ihrer Daten durch eine bekannte Verteilung (in Ihrem Fall die Exponentialverteilung) gut beschrieben werden kann.
x
pX( x ) = σ- 1exp ( - ( x - θ )σ) ,x > 0 ; σ> 0
xθ = 0
Die üblichen MLE-Schätzer der Parameter sind [0, p 506]:
θ^= minichxich
und
σ^= aveichxich- minichxich
Hier ist ein Beispiel in R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
σ≈ 2,08
Leider reagieren die MLE-Schätzungen sehr empfindlich auf Ausreißer. Wenn ich zum Beispiel die Stichprobe beschädige, indem ich 20% der ersetzexich- xich
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
σ≈ 11.12xich100 xich
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
σ≈ 54
Eine Alternative zum rohen MLE besteht darin, (a) die Ausreißer unter Verwendung einer robusten Ausreißeridentifizierungsregel zu finden , (b) sie als unechte Daten beiseite zu legen und (c) den MLE auf dem nicht unechten Teil der Stichprobe zu berechnen.
Die bekannteste dieser robusten Ausreißeridentifikationsregeln ist die von Hampel [3] vorgeschlagene med / mad-Regel, die sie Gauß zuschrieb (ich habe diese Regel hier veranschaulicht ). In der med / mad-Regel basieren die Ablehnungsschwellen auf der Annahme, dass die tatsächlichen Beobachtungen in Ihrer Stichprobe durch eine Normalverteilung gut angenähert werden.
Wenn Sie zusätzliche Informationen haben (z. B. das Wissen, dass die Verteilung der echten Beobachtungen durch eine Poisson - Verteilung wie in diesem Beispiel gut angenähert wird ), hindert Sie nichts daran, Ihre Daten zu transformieren und die Grundregel für die Ablehnung von Ausreißern (die med / mad), aber ich finde es etwas umständlich, die Daten so zu transformieren, dass die Ad-hoc-Regel erhalten bleibt.
Es erscheint mir viel logischer, die Daten beizubehalten, aber die Ablehnungsregeln anzupassen. Dann würden Sie immer noch das oben im ersten Link beschriebene dreistufige Verfahren anwenden, jedoch mit einer Ablehnungsschwelle, die an die Verteilung angepasst ist, die Sie für den Großteil der Daten halten. Im Folgenden gebe ich die Ablehnungsregel für Situationen an, in denen die tatsächlichen Beobachtungen durch eine Exponentialverteilung gut angepasst sind. In diesem Fall können Sie mit der folgenden Regel gute Rückweisungsschwellenwerte erstellen:
θ
θ^′= medichxich- 3,476 Qn (x)ln2
≈ 3.476 , siehe [1] für weitere Details.
2) lehne alle Beobachtungen außerhalb von [2, p 188] als falsch ab
[ θ^′, 9 ( 1 + 2 / n ) medichxich+ θ^′]
(Der Faktor 9 in der obigen Regel ergibt sich als 7.1 in der obigen Antwort von Glen_b, jedoch unter Verwendung eines höheren Grenzwerts. Der Faktor (1 + 2 / n) ist ein Korrekturfaktor für kleine Stichproben, der durch Simulationen in [2] abgeleitet wurde. Bei ausreichend großen Stichproben entspricht dies im Wesentlichen 1).
3) Verwenden Sie die MLE für die nicht-falschen Daten, um zu schätzen σ:
σ^′= aveich ∈ Hxich- minich ∈ Hxich
woher H= { i : θ^′≤ xich≤ 9 ( 1 + 2 / n ) medichxich+ θ^′}.
Wenn Sie diese Regel in den vorherigen Beispielen verwenden, erhalten Sie:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
die robuste Schätzung von σ ist jetzt
≈ 2,05(Sehr nahe am MLE-Wert, wenn die Daten sauber sind). Zum zweiten Beispiel:
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
Die robuste Schätzung von σ ist jetzt
≈ 2.2 (Sehr nahe an dem Wert, den wir ohne die Ausreißer bekommen hätten).
Zum dritten Beispiel:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
Die robuste Schätzung von σ ist jetzt
≈ 2.2 (Sehr nahe an dem Wert, den wir ohne die Ausreißer bekommen hätten).
Ein Nebeneffekt dieses Ansatzes besteht darin, dass er eine Teilmenge von Indices verdächtiger Beobachtungen liefert, die von den übrigen Daten abgesetzt werden sollten, um möglicherweise als eigenständiges Interessensobjekt untersucht zu werden (die Mitglieder von { i : i ∉ H}).
Für den allgemeinen Fall, dass Sie keine gute Kandidatenverteilung haben, die zu den meisten Ihrer Beobachtungen passt, ohne zu wissen, dass eine symmetrische Verteilung nicht ausreicht, können Sie das angepasste Boxplot [4] verwenden. Dies ist eine Verallgemeinerung des Boxplots, die ein (nicht parametrisches und ausreißerrobustes) Maß für die Schiefe Ihrer Daten berücksichtigt (wenn der Großteil der Daten symmetrisch ist, wird es auf das übliche Boxplot reduziert). Sie können diese Antwort auch für eine Illustration überprüfen .
- [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Continuous Univariate Distributions, Band 1, 2. Auflage.
- [1] Rousseeuw PJ und Croux C. (1993). Alternativen zur mittleren absoluten Abweichung. Journal of the American Statistical Association, Bd. 88, Nr. 424, S. 1273-1283.
- [2] JK Patel, CH Kapadia, und DB Owen, Dekker (1976). Handbuch der statistischen Verteilungen.
- [3] Hampel (1974). Die Einflusskurve und ihre Rolle bei der robusten Schätzung. Journal of the American Statistical Association Vol. 69, Nr. 346 (Juni 1974), S. 383-393.
- [4] Vandervieren, E., Hubert, M. (2004) "Ein angepasster Boxplot für Schrägverteilungen". Computational Statistics & Data Analysis Volume 52, Ausgabe 12, 15. August 2008, Seiten 5186–5201.
1.5*IQR
Definition eines Ausreißers nicht allgemein anerkannt. Versuchen Sie, Ihre Frage zu entladen und das zu lösende Problem zu erweitern.