Die Standarddefinition eines Ausreißers für einen Box- und Whisker-Plot liegt außerhalb des Bereichs , wobei und das erste Quartil und ist das dritte Quartil der Daten.Q 1 Q 3
Was ist die Basis für diese Definition? Mit einer großen Anzahl von Punkten gibt sogar eine vollkommen normale Verteilung Ausreißer zurück.
Angenommen, Sie beginnen mit der folgenden Sequenz:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Diese Sequenz erstellt ein Perzentil-Ranking von 4000 Datenpunkten.
Das Testen der Normalität für qnorm
diese Serie ergibt:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Die Ergebnisse sind genau wie erwartet: Die Normalität einer Normalverteilung ist normal. Durch das Erstellen einer qqnorm(qnorm(xseq))
wird (wie erwartet) eine gerade Datenlinie erstellt:
Wenn ein Boxplot mit denselben Daten erstellt wird, boxplot(qnorm(xseq))
wird das folgende Ergebnis erzeugt:
Die boxplot, im Gegensatz zu shapiro.test
, ad.test
oder qqnorm
identifiziert mehrere Punkte als Ausreißer , wenn die Probengrße ausreichend groß ist (wie in diesem Beispiel).