Ich kenne eine Verallgemeinerung von Standard-Boxplots, bei denen die Länge der Whisker angepasst wird, um verzerrte Daten zu berücksichtigen. Die Details werden in einem sehr klaren und prägnanten Whitepaper (Vandervieren, E., Hubert, M. (2004), "Ein angepasster Boxplot für verzerrte Verteilungen", siehe hier ) besser erklärt .
Rrobustbase::adjbox()libra
Ich persönlich finde es eine bessere Alternative zur Datenumwandlung (obwohl es auch auf einer Ad-hoc-Regel basiert, siehe Whitepaper).
Übrigens habe ich hier etwas zu Whubers Beispiel hinzuzufügen. In dem Maße, in dem wir über das Verhalten der Whisker sprechen, sollten wir auch überlegen, was bei der Betrachtung kontaminierter Daten geschieht:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
In diesem Kontaminationsmodell hat B1 im Wesentlichen eine logarithmische Normalverteilung, abgesehen von 20 Prozent der Daten, die zur Hälfte links und zur Hälfte rechts von Ausreißern liegen (der Aufschlüsselungspunkt von adjbox ist derselbe wie der von regulären Boxplots, dh es wird höchstens davon ausgegangen 25 Prozent der Daten können fehlerhaft sein.
Die Grafiken zeigen die klassischen Boxplots der transformierten Daten (unter Verwendung der Quadratwurzel-Transformation).
und das angepasste Boxplot der nicht transformierten Daten.
Im Vergleich zu angepassten Boxplots maskiert die erstere Option die tatsächlichen Ausreißer und kennzeichnet gute Daten als Ausreißer. Im Allgemeinen wird es zweckmäßig sein, Hinweise auf Asymmetrien in den Daten zu verbergen, indem Sie beleidigende Punkte als Ausreißer klassifizieren.
In diesem Beispiel werden bei Verwendung des Standard-Boxplots auf der Quadratwurzel der Daten 13 Ausreißer (alle rechts) ermittelt, während im angepassten Boxplot 10 rechte und 14 linke Ausreißer ermittelt werden.
EDIT: angepasste Boxplots auf den Punkt gebracht.
In 'klassischen' Boxplots befinden sich die Whisker bei:
Q 3Q1 -1,5 * IQR und + 1,5 * IQRQ3
Dabei ist IQR der Interquantilbereich, das 25. Perzentil und das 75. Perzentil der Daten. Als Faustregel gilt, dass alles außerhalb des Zauns als zweifelhafte Daten betrachtet werden muss (der Zaun ist das Intervall zwischen den beiden Whiskern).Q 3Q1Q3
Diese Faustregel ist ad-hoc: Die Begründung lautet, dass weniger als 1% der guten Daten nach dieser Regel als schlecht eingestuft würden, wenn der nicht kontaminierte Teil der Daten ungefähr Gaußsch ist.
Eine Schwäche dieser Zaunregel ist, wie vom OP hervorgehoben, dass die Länge der beiden Whisker identisch ist, was bedeutet, dass die Zaunregel nur dann Sinn macht, wenn der nicht kontaminierte Teil der Daten eine symmetrische Verteilung aufweist.
Ein gängiger Ansatz ist es, die Zaunregel beizubehalten und die Daten anzupassen. Die Idee besteht darin, die Daten unter Verwendung einer eintönigen Transformation mit Korrektur des Versatzes (Quadratwurzel oder Logarithmus oder allgemeiner Box-Cox-Transformationen) zu transformieren. Dies ist ein etwas chaotischer Ansatz: Er basiert auf zirkulärer Logik (die Transformation sollte so gewählt werden, dass die Schiefe des nicht kontaminierten Teils der Daten korrigiert wird, der zu diesem Zeitpunkt nicht beobachtbar ist) und die Interpretation der Daten erschwert visuell. In jedem Fall bleibt dies ein merkwürdiger Vorgang, bei dem man die Daten ändert, um eine schließlich Ad-hoc-Regel zu erhalten.
Eine Alternative besteht darin, die Daten unangetastet zu lassen und die Whisker-Regel zu ändern. Das angepasste Boxplot ermöglicht, dass die Länge jedes Whiskers gemäß einem Index variiert, der die Schiefe des nicht kontaminierten Teils der Daten misst:
Q1 - 1,5 * IQR und + 1,5 * IQRQ 3 exp ( M , β )exp(M,α)Q3exp(M,β)
Wo ist ein Index für die Schiefe des unbelasteten Teils der Daten ( das heißt, wie die mittleren ein Maß für Position für den unberührten Teil der Daten oder die MAD ein Maß für die Ausbreitung des unbelasteten Teil der Daten) und sind Zahlen, die so gewählt werden, dass bei nicht kontaminierten Schrägverteilungen die Wahrscheinlichkeit, außerhalb des Zauns zu liegen, in einer großen Sammlung von Schrägverteilungen relativ gering ist (dies ist der Ad-hoc-Teil der Zaunregel).α βMα β
In Fällen, in denen der Großteil der Daten symmetrisch ist, ist und wir kehren zu den klassischen Whiskern zurück.M≈0
Die Autoren schlagen vor, das Med-Paar als Schätzer für (siehe Referenz im Whitepaper), da es sehr effizient ist (obwohl im Prinzip jeder robuste Skew-Index verwendet werden kann). Mit dieser Wahl von berechneten sie dann das optimale und empirisch (unter Verwendung einer großen Anzahl von versetzten Verteilungen) als:M α βMMαβ
Q1exp(−4M)Q3exp(3M)M≥0
Q1exp(−3M)Q3exp(4M)M<0