Was ist die Basis für die Box- und Whisker-Plot-Definition eines Ausreißers?


17

Die Standarddefinition eines Ausreißers für einen Box- und Whisker-Plot liegt außerhalb des Bereichs , wobei und das erste Quartil und ist das dritte Quartil der Daten.{Q.1-1.5ichQ.R,Q.3+1.5ichQ.R}Q 1 Q 3ichQ.R=Q.3-Q.1Q.1Q.3

Was ist die Basis für diese Definition? Mit einer großen Anzahl von Punkten gibt sogar eine vollkommen normale Verteilung Ausreißer zurück.

Angenommen, Sie beginnen mit der folgenden Sequenz:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Diese Sequenz erstellt ein Perzentil-Ranking von 4000 Datenpunkten.

Das Testen der Normalität für qnormdiese Serie ergibt:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Die Ergebnisse sind genau wie erwartet: Die Normalität einer Normalverteilung ist normal. Durch das Erstellen einer qqnorm(qnorm(xseq))wird (wie erwartet) eine gerade Datenlinie erstellt:

qqnorm Datenplot

Wenn ein Boxplot mit denselben Daten erstellt wird, boxplot(qnorm(xseq))wird das folgende Ergebnis erzeugt:

Boxplot der Daten

Die boxplot, im Gegensatz zu shapiro.test, ad.testoder qqnormidentifiziert mehrere Punkte als Ausreißer , wenn die Probengrße ausreichend groß ist (wie in diesem Beispiel).


Was meinst du mit "Basis"? Dies ist eine Definition, und niemand sagt, dass die vollkommen normale Verteilung keine Ausreißer hat
Haitao Du

2
@ hxd1011, die Definition der Distribution kann kein Ausreißer von sich sein. Diese Definition für das Testen auf Ausreißer auf einem Box- und Whisker-Plot ist das Testen / etwas /, um das Ergebnis zu liefern, was auch immer es testet, wäre die Grundlage des Tests.
Tavrock

Ich denke, die Definition des Box- und Whisker-Ausreißers ist nur eine Heuristik. Warum kann die Definition der Verteilung keinen Ausreißer von sich selbst haben?
Haitao Du

3
Es spielt keine Rolle, für welche Regel Sie sich entscheiden. Am Ende würden Sie sagen: "Mit einer großen Anzahl von Punkten liefert sogar eine vollkommen normale Verteilung Ausreißer." [Versuchen Sie, Ausreißer zu identifizieren, die keine Punkte ablehnen können, wenn Sie eine Stichprobe aus einer Normalverteilung
entnehmen

1
Eine vielfach wiederholte Anekdote ist, dass John Tukey, der sich diese Faustregel ausgedacht hatte, gefragt wurde, warum 1,5; und sagte, dass 1 zu klein und 2 zu viel wäre. Angesichts der Häufigkeit, mit der ich es als ein definitives, orakelhaftes Kriterium falsch verstanden habe, wäre ich mehr als erfreut, wenn es verblasst. Jetzt haben wir alle Computer, die alle Daten anzeigen können!
Nick Cox

Antworten:


25

Boxplots

Hier ist ein relevanter Abschnitt aus Hoaglin, Mosteller und Tukey (2000): Das Verständnis von robuster und explorativer Datenanalyse. Wiley . Kapitel 3, "Boxplots und Chargenvergleich", verfasst von John D. Emerson und Judith Strenio (ab Seite 62):

FL-32dFFU+32dF

FLFUdFFU-FL

Sie fahren fort und zeigen die Bewerbung einer Gaußschen Bevölkerung (Seite 63):

010-0,67450,67451,34943322,02352±2.69822399,3%

So

0,7%

Weiter schreiben sie

[...] Auf diese Weise können wir beurteilen, ob unsere Daten schwerer als Gauß zu sein scheinen, da die Anzahl der Punkte hinter den Ausreißergrenzwerten liegt. [...]

Sie liefern eine Tabelle mit dem erwarteten Anteil der Werte, die außerhalb der Ausreißergrenzwerte liegen (mit "Total% Out" bezeichnet):

Tabelle 3-2

Diese Grenzwerte sollten also niemals eine strenge Regel darüber sein, welche Datenpunkte Ausreißer sind oder nicht. Wie Sie bemerkt haben, wird erwartet, dass selbst eine perfekte Normalverteilung "Ausreißer" in einem Boxplot aufweist.


Ausreißer

Soweit ich weiß, gibt es keine allgemein anerkannte Definition von Ausreißern. Ich mag die Definition von Hawkins (1980):

Ein Ausreißer ist eine Beobachtung, die so sehr von den anderen Beobachtungen abweicht, dass sie Verdacht erregt, dass sie durch einen anderen Mechanismus erzeugt wurde.

Im Idealfall sollten Sie Datenpunkte erst dann als Ausreißer behandeln, wenn Sie verstanden haben, warum sie nicht zum Rest der Daten gehören. Eine einfache Regel reicht nicht aus. Eine gute Behandlung von Ausreißern findet sich in Aggarwal (2013).

Verweise

Aggarwal CC (2013): Ausreißeranalyse. Springer.
Hawkins D (1980): Identifizierung von Ausreißern. Chapman und Hall.
Hoaglin, Mosteller und Tukey (2000): Robuste und explorative Datenanalyse verstehen. Wiley.


7

Das Wort "Ausreißer" wird oft als "fehlerhafter, irreführender, fehlerhafter oder fehlerhafter Datenwert, der daher in der Analyse weggelassen werden sollte" bezeichnet, was Tukey jedoch nicht mit "Ausreißer" meinte. Die Ausreißer sind einfach Punkte, die weit vom Median des Datensatzes entfernt sind.

Ihr Argument, in vielen Datensätzen Ausreißer zu erwarten, ist richtig und wichtig. Und es gibt viele gute Fragen und Antworten zum Thema.

Ausreißer aus asymmetrischen Daten entfernen

Ist es angebracht, Ausreißer zu identifizieren und zu entfernen, weil sie Probleme verursachen?


2

Wie bei allen Ausreißererkennungsmethoden muss mit Sorgfalt und Nachdenken ermittelt werden, welche Werte wirklich Ausreißer sind. Ich denke, der Boxplot bietet einfach eine gute Visualisierung der Datenverbreitung, und echte Ausreißer sind leicht zu erkennen.


0

Ich denke, Sie sollten sich Sorgen machen, wenn Sie im Rahmen einer Normalverteilung keine Ausreißer erhalten, andernfalls sollten Sie nach Gründen suchen, für die es keine gibt. Es ist klar, dass sie überprüft werden sollten, um sicherzustellen, dass sie keine Fehler aufzeichnen, ansonsten sind sie jedoch zu erwarten.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.