Ausreißererkennung bei verzerrten Verteilungen


24

Bei einer klassischen Definition eines Ausreißers als Datenpunkt außerhalb des 1,5 * IQR aus dem oberen oder unteren Quartil wird von einer nicht verzerrten Verteilung ausgegangen. Ist die beste Methode zum Erkennen eines Ausreißers durch Analysieren einer Transformation der ursprünglichen Funktion für verzerrte Verteilungen (Exponential, Poisson, Geometrisch usw.)?

Zum Beispiel könnten Verteilungen, die lose von einer Exponentialverteilung gesteuert werden, mit einer Protokollfunktion transformiert werden. An welchem ​​Punkt ist es akzeptabel, nach Ausreißern zu suchen, die auf derselben IQR-Definition basieren?


4
Auf dieser Website gibt es viele Fragen zur Bewertung von Ausreißern. Eine Sache, die Sie hier hinzufügen müssen, um eine vernünftige Antwort zu erhalten, ist, was Sie wirklich tun oder herausfinden möchten. Aber für den Anfang ist die 1.5*IQRDefinition eines Ausreißers nicht allgemein anerkannt. Versuchen Sie, Ihre Frage zu entladen und das zu lösende Problem zu erweitern.
John

Die Aussage, dass ein Wert über 1,5 IQR ein Ausreißer ist, ist einfach Unsinn. Daten über 1,5 IQR stimmen mit einer unendlichen Anzahl von Verteilungen völlig überein, und wenn die Stichprobengröße groß wird, kann man fast mit der Gewissheit rechnen, dass solche Daten KEINE Ausreißer sind.
Wolfies

Antworten:


18

Unter einer klassischen Definition eines Ausreißers als Datenpunkt außerhalb des 1,5 * IQR aus dem oberen oder unteren Quartil

Dies ist die Regel zum Identifizieren von Punkten außerhalb der Enden der Whisker in einem Boxplot. Tukey selbst würde es zweifellos ablehnen, sie auf dieser Grundlage als Ausreißer zu bezeichnen (Punkte außerhalb dieser Grenzen betrachtete er nicht unbedingt als Ausreißer). Dies sind eher Punkte, bei denen - wenn Ihre Daten aus einer Verteilung stammen sollten, die einer normalen Verteilung ähnelt - möglicherweise weitere Nachforschungen angestellt werden (z. B. die Überprüfung, dass Sie nicht zweistellig transponiert haben) - höchstens diese könnte potenzielle Ausreißer sein. Wie Nick Cox in Kommentaren zu dieser Antwort ausführt , würde ein Ende vieler solcher Punkte eher als Indikator dafür angesehen, dass ein erneuter Ausdruck geeignet sein könnte, als als Hinweis auf die Notwendigkeit, die Punkte als Ausreißer zu betrachten.

Es wird von einer nicht verzerrten Verteilung ausgegangen.

Ich nahm an, dass Sie mit "nicht verzerrt" symmetrisch meinen. Dann ist die Annahme mehr als nur das. Eine schwerfällige, aber symmetrische Verteilung kann viele Punkte außerhalb der Grenzen dieser Regel haben.

Ist die beste Methode zum Erkennen eines Ausreißers durch Analysieren einer Transformation der ursprünglichen Funktion für verzerrte Verteilungen (Exponential, Poisson, Geometrisch usw.)?

Das hängt davon ab, was für Ihre Zwecke ein Ausreißer ist. Es gibt keine Definition, die für jeden Zweck geeignet ist - im Allgemeinen ist es wahrscheinlich besser, andere Dinge zu tun, die Ausreißer auswählen und weglassen.

Für die Exponential- oder Geometrieberechnung können Sie eine ähnliche Berechnung durchführen wie für einen Boxplot, wobei jedoch nur im rechten Ende ein ähnlicher Bruch identifiziert wird (in einer Exponential- oder Geometrieberechnung werden keine unteren Endpunkte identifiziert) .. oder du tust etwas anderes.

In großen Stichproben markiert der Boxplot an jedem Ende etwa 0,35% der Punkte oder insgesamt etwa 0,7%. Für ein Exponential können Sie beispielsweise ein Vielfaches des Medians markieren. Wenn Sie für ein tatsächliches Exponential ungefähr 0,7% aller Punkte markieren möchten, würde dies bedeuten, dass Sie Punkte markieren, die über dem 7,1-fachen des Medians liegen.

Markierungspunkte über dem 7,1-fachen des Medians für n = 1000 treffen normalerweise zwischen 0,4% und 1,1% der Werte:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

Zum Beispiel könnten Verteilungen, die lose von einer Exponentialverteilung gesteuert werden, mit einer Protokollfunktion transformiert werden. An welchem ​​Punkt ist es akzeptabel, nach Ausreißern zu suchen, die auf derselben IQR-Definition basieren?

Das kommt ganz darauf an, was du mit "akzeptabel" meinst. Beachten Sie jedoch, dass -

i) Die resultierende Verteilung ist nicht wirklich symmetrisch, sondern deutlich nach links geneigt.

Bildbeschreibung hier eingeben

Infolgedessen markieren Sie normalerweise nur Punkte am linken Ende (dh nahe Null, wo Sie sowieso Exponentialwerte erwarten) anstatt am rechten Ende (wo die "Ausreißer" sein könnten), es sei denn, sie sind wirklich extrem.

ii) Die Eignung einer solchen Regel hängt stark davon ab, was Sie tun.

Wenn Sie sich Sorgen über den seltsamen Wert machen, der sich auf Ihre Schlussfolgerung auswirkt, ist es wahrscheinlich besser, robuste Verfahren zu verwenden, als Ausreißer formal zu identifizieren.

Wenn Sie wirklich eine normalbasierte Regel für transformierte Exponential- oder Poisson-Daten verwenden möchten, würde ich zumindest vorschlagen, sie auf die Quadratwurzel für eine Poisson anzuwenden (sofern der Mittelwert nicht zu klein ist, sollte dies der Fall sein ungefähr normalisch) und zur Kubikwurzel oder sogar zur vierten Wurzel für das Exponential (und vielleicht, in Erweiterung, das Geometrische).

oder vielleicht , wie in derAnscombe-TransformationX+38

Bildbeschreibung hier eingeben

Bei einem exponentiellen Ansatz mit großen Stichproben markiert der Kubikwurzelansatz in der Regel nur Punkte im oberen Schwanz (bei ungefähr der gleichen Rate markiert er sie im oberen Schwanz für eine Normale), und der Ansatz mit der vierten Wurzel markiert Punkte in beiden Schwänzen (etwas mehr im unteren Schwanz, insgesamt bei etwa 40% der Rate, die es für einen normalen tut). Von den Möglichkeiten ist die Kubikwurzel für mich sinnvoller als die beiden anderen, aber ich würde nicht unbedingt raten, dies als eine harte und schnelle Regel zu verwenden.


1
Msgstr "Eine schwerfällige, aber symmetrische Verteilung kann viele Punkte außerhalb der Grenzen dieser Regel haben." Es gibt immer genau 50% aller Punkte innerhalb des IQR, nicht wahr?
16.

2
(Q.1-1.5×IQR,Q.3+1.5×IQR)

@Glen_b Die obere Zurückweisungsschwelle für das Exponential in Ihrer Antwort setzt voraus, dass der Verschiebungsparameter (oder Theta) bekannt ist. Ich denke, das sollte erwähnt werden.
user603

1
@ user603 Der Begriff " Exponentialverteilung " (siehe auch hier ) ohne modifizierendes Adjektiv (wie "verschoben" oder "Zwei-Parameter") bezieht sich üblicherweise auf die Ein-Parameter-Version. Einige Leute nennen die verschobene Version "die exponentielle Verteilung", aber das ist relativ selten; nur geringfügig häufiger als die verschobene logarithmische Normalverteilung "logarithmische Normalverteilung" zu nennen.
Glen_b

1
@ user603 Oh, entschuldigung, eine einfache Fehlkommunikation - in diesem Fall haben wir, glaube ich, keine wesentlichen Meinungsverschiedenheiten - wo es links große Ausreißer geben kann, macht der Ansatz, den ich erwähnt habe, überhaupt keinen Sinn . Ich habe einfach nicht versucht, mit einer möglichen Situation umzugehen (aber zu meiner Verteidigung sah es für mich nicht so aus, als ob das OP dies als eine Möglichkeit ansah - ich bezweifle, dass mir das Aufzeichnen von Protokollen in den Sinn gekommen wäre).
Glen_b

14

Ich beantworte Ihre Fragen in umgekehrter Reihenfolge, in der Sie sie gestellt haben, damit die Darlegung vom Besonderen zum Allgemeinen übergeht.

Lassen Sie uns zunächst eine Situation betrachten, in der Sie davon ausgehen können, dass mit Ausnahme einer Minderheit von Ausreißern der Großteil Ihrer Daten durch eine bekannte Verteilung (in Ihrem Fall die Exponentialverteilung) gut beschrieben werden kann.

x

pX(x)=σ-1exp(-(x-θ)σ),x>0;σ>0

xθ=0

Die üblichen MLE-Schätzer der Parameter sind [0, p 506]:

θ^=Mindestichxich

und

σ^=Ave.ichxich-Mindestichxich

Hier ist ein Beispiel in R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

σ2,08

Leider reagieren die MLE-Schätzungen sehr empfindlich auf Ausreißer. Wenn ich zum Beispiel die Stichprobe beschädige, indem ich 20% der ersetzexich-xich

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

σ11.12xich100xich

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

σ54

Eine Alternative zum rohen MLE besteht darin, (a) die Ausreißer unter Verwendung einer robusten Ausreißeridentifizierungsregel zu finden , (b) sie als unechte Daten beiseite zu legen und (c) den MLE auf dem nicht unechten Teil der Stichprobe zu berechnen.

Die bekannteste dieser robusten Ausreißeridentifikationsregeln ist die von Hampel [3] vorgeschlagene med / mad-Regel, die sie Gauß zuschrieb (ich habe diese Regel hier veranschaulicht ). In der med / mad-Regel basieren die Ablehnungsschwellen auf der Annahme, dass die tatsächlichen Beobachtungen in Ihrer Stichprobe durch eine Normalverteilung gut angenähert werden.

Wenn Sie zusätzliche Informationen haben (z. B. das Wissen, dass die Verteilung der echten Beobachtungen durch eine Poisson - Verteilung wie in diesem Beispiel gut angenähert wird ), hindert Sie nichts daran, Ihre Daten zu transformieren und die Grundregel für die Ablehnung von Ausreißern (die med / mad), aber ich finde es etwas umständlich, die Daten so zu transformieren, dass die Ad-hoc-Regel erhalten bleibt.

Es erscheint mir viel logischer, die Daten beizubehalten, aber die Ablehnungsregeln anzupassen. Dann würden Sie immer noch das oben im ersten Link beschriebene dreistufige Verfahren anwenden, jedoch mit einer Ablehnungsschwelle, die an die Verteilung angepasst ist, die Sie für den Großteil der Daten halten. Im Folgenden gebe ich die Ablehnungsregel für Situationen an, in denen die tatsächlichen Beobachtungen durch eine Exponentialverteilung gut angepasst sind. In diesem Fall können Sie mit der folgenden Regel gute Rückweisungsschwellenwerte erstellen:

θ

θ^=medichxich-3,476Qn(x)ln2

3,476 , siehe [1] für weitere Details.

2) lehne alle Beobachtungen außerhalb von [2, p 188] als falsch ab

[θ^,9(1+2/n)medichxich+θ^]

(Der Faktor 9 in der obigen Regel ergibt sich als 7.1 in der obigen Antwort von Glen_b, jedoch unter Verwendung eines höheren Grenzwerts. Der Faktor (1 + 2 / n) ist ein Korrekturfaktor für kleine Stichproben, der durch Simulationen in [2] abgeleitet wurde. Bei ausreichend großen Stichproben entspricht dies im Wesentlichen 1).

3) Verwenden Sie die MLE für die nicht-falschen Daten, um zu schätzen σ:

σ^=Ave.ichHxich-MindestichHxich

woher H={ich:θ^xich9(1+2/n)medichxich+θ^}.

Wenn Sie diese Regel in den vorherigen Beispielen verwenden, erhalten Sie:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

die robuste Schätzung von σ ist jetzt 2,05(Sehr nahe am MLE-Wert, wenn die Daten sauber sind). Zum zweiten Beispiel:

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

Die robuste Schätzung von σ ist jetzt 2.2 (Sehr nahe an dem Wert, den wir ohne die Ausreißer bekommen hätten).

Zum dritten Beispiel:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

Die robuste Schätzung von σ ist jetzt 2.2 (Sehr nahe an dem Wert, den wir ohne die Ausreißer bekommen hätten).

Ein Nebeneffekt dieses Ansatzes besteht darin, dass er eine Teilmenge von Indices verdächtiger Beobachtungen liefert, die von den übrigen Daten abgesetzt werden sollten, um möglicherweise als eigenständiges Interessensobjekt untersucht zu werden (die Mitglieder von {ich:ichH}).

Für den allgemeinen Fall, dass Sie keine gute Kandidatenverteilung haben, die zu den meisten Ihrer Beobachtungen passt, ohne zu wissen, dass eine symmetrische Verteilung nicht ausreicht, können Sie das angepasste Boxplot [4] verwenden. Dies ist eine Verallgemeinerung des Boxplots, die ein (nicht parametrisches und ausreißerrobustes) Maß für die Schiefe Ihrer Daten berücksichtigt (wenn der Großteil der Daten symmetrisch ist, wird es auf das übliche Boxplot reduziert). Sie können diese Antwort auch für eine Illustration überprüfen .

  • [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Continuous Univariate Distributions, Band 1, 2. Auflage.
  • [1] Rousseeuw PJ und Croux C. (1993). Alternativen zur mittleren absoluten Abweichung. Journal of the American Statistical Association, Bd. 88, Nr. 424, S. 1273-1283.
  • [2] JK Patel, CH Kapadia, und DB Owen, Dekker (1976). Handbuch der statistischen Verteilungen.
  • [3] Hampel (1974). Die Einflusskurve und ihre Rolle bei der robusten Schätzung. Journal of the American Statistical Association Vol. 69, Nr. 346 (Juni 1974), S. 383-393.
  • [4] Vandervieren, E., Hubert, M. (2004) "Ein angepasster Boxplot für Schrägverteilungen". Computational Statistics & Data Analysis Volume 52, Ausgabe 12, 15. August 2008, Seiten 5186–5201.

1

Zuerst würde ich die Definition in Frage stellen, klassisch oder anders. Ein "Ausreißer" ist ein überraschender Punkt. Die Verwendung einer bestimmten Regel (auch für symmetrische Verteilungen) ist eine fehlerhafte Idee, insbesondere heutzutage, wenn es so viele große Datenmengen gibt. In einem Datensatz von (sagen wir) einer Million Beobachtungen (in einigen Bereichen nicht allzu groß) wird es viele Fälle geben, die über dem von Ihnen angegebenen Grenzwert von 1,5 IQR liegen, selbst wenn die Verteilung völlig normal ist.

Zweitens würde ich vorschlagen, nach Ausreißern in den Originaldaten zu suchen. Es wird fast immer intuitiver sein. Beispielsweise ist es bei Einkommensdaten durchaus üblich, Protokolle zu führen. Aber auch hier würde ich nach Ausreißern auf der ursprünglichen Skala suchen (Dollar oder Euro oder was auch immer), weil wir ein besseres Gespür für solche Zahlen haben. (Wenn Sie Protokolle erstellen, empfehle ich Protokollbasis 10, zumindest für die Erkennung von Ausreißern, da dies zumindest ein wenig intuitiv ist.)

Drittens: Achten Sie bei der Suche nach Ausreißern auf die Maskierung.

Schließlich erforsche ich derzeit den von Atkinson und Riani vorgeschlagenen "Forward Search" -Algorithmus für verschiedene Arten von Daten und Problemen. Das sieht sehr vielversprechend aus.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.