Ein Boxplot soll einen relativ kleinen Datensatz auf eine Weise zusammenfassen, die klar zeigt
Ein zentraler Wert.
Die Verbreitung "typischer" Werte.
Einzelwerte, die im Verhältnis zum Spread so stark vom zentralen Wert abweichen, dass sie für besondere Aufmerksamkeit herausgegriffen und separat identifiziert werden (z. B. namentlich). Diese werden als "identifizierte Werte" bezeichnet.
Dies ist auf robuste Weise zu tun : Das heißt, das Boxplot sollte nicht wesentlich anders aussehen, wenn einer oder ein relativ kleiner Teil der Datenwerte willkürlich geändert wird.
Die von seinem Erfinder John Tukey angenommene Lösung besteht darin, die Auftragsstatistik - die Daten vom niedrigsten zum höchsten sortiert - systematisch zu verwenden. Der Einfachheit halber (er rechnete mental oder mit Bleistift und Papier) konzentrierte sich Tukey auf Mediane : die Mittelwerte von Zahlenreihen. (Für Chargen mit geraden Zählwerten verwendete Tukey den Mittelpunkt der beiden Mittelwerte.) Ein Median ist resistent gegen Änderungen in bis zu der Hälfte der Daten, auf denen er basiert, und eignet sich daher hervorragend als robuste Statistik. Somit:
Der zentrale Wert wird mit dem Median aller Daten geschätzt.
Die Streuung wird mit der Differenz zwischen den Medianen der "oberen Hälfte" - alle Daten gleich oder über dem Median - und der "unteren Hälfte" - alle Daten gleich oder kleiner als der Median - geschätzt. Diese beiden Mediane werden als obere und untere "Scharniere" oder "Viertel" bezeichnet. Sie neigen heutzutage dazu, durch Dinge ersetzt zu werden, die Quartile genannt werden (die leider keine universelle Definition haben).
Unsichtbare Zäune zum Abschirmen von Ausreißern werden 1,5- und 3-mal so weit über die Scharniere hinaus (vom zentralen Wert entfernt) errichtet.
- "Der Wert an jedem Ende, das dem inneren Zaun am nächsten liegt, aber immer noch darin liegt, ist 'benachbart'."
- Werte jenseits des ersten Zauns werden als "Ausreißer" bezeichnet.
- Werte jenseits des zweiten Zauns sind "weit draußen".
(Diejenigen, die alt genug sind, um sich an den Hippie-Argot der 60er Jahre zu erinnern , werden den Witz verstehen.)
Da es sich bei der Streuung um eine Differenz der Datenwerte handelt, haben diese Zäune die gleichen Maßeinheiten wie die Originaldaten: Dies ist das Gefühl der "Entfernung" in der Frage.
In Bezug auf die zu identifizierenden Datenwerte schrieb Tukey
Wir können zumindest die Extremwerte identifizieren und könnten gut daran tun, einige weitere zu identifizieren.
Jede grafische Methode zur Anzeige des Medians, der Scharniere und der identifizierten Werte verdient wohl die Bezeichnung "Boxplot" (ursprünglich "Box-and-Whisker-Plot"). Die Zäune sind normalerweise nicht abgebildet. Tukeys Design besteht aus einem Rechteck, das die Scharniere mit einer "Taille" im Median beschreibt. Unauffällige linienartige "Whisker" erstrecken sich von den Scharnieren nach außen bis zu den innersten identifizierten Werten (sowohl über als auch unter der Box). Normalerweise sind diese innersten identifizierten Werte die oben definierten benachbarten Werte.
Folglich besteht das Standard-Erscheinungsbild eines Boxplots darin, die Whisker auf die extremsten nicht abweichenden Datenwerte zu erweitern und (durch Textbeschriftungen) die Daten zu identifizieren, die die Enden der Whisker und alle Ausreißer umfassen. Zum Beispiel ist der Tupungatito-Vulkan der hohe benachbarte Wert für die rechts in der Abbildung dargestellten Vulkanhöhendaten: Der Whisker stoppt dort. Tupungatito und alle größeren Vulkane werden separat identifiziert.
Damit die Daten korrekt angezeigt werden, ist der Abstand in der Grafik proportional zu den Unterschieden bei den Datenwerten. (Jede Abweichung von der direkten Verhältnismäßigkeit würde einen "Lügenfaktor" in die Terminologie von Tufte (1983) einführen.)
Diese beiden Boxplots aus Tukeys Buch EDA (S. 41) veranschaulichen die Komponenten. Es ist bemerkenswert, dass er nicht abweichende Werte am oberen und unteren Ende des US-Datensatzes links und einen niedrigen nicht abweichenden Wert der Vulkanhöhen rechts identifiziert hat. Dies veranschaulicht das Zusammenspiel von Regeln und Urteilsvermögen , das das Buch durchdringt.
(Sie können feststellen, dass diese identifizierten Daten nicht außerhalb liegen, da Sie die Positionen der Zäune schätzen können. Beispielsweise liegen die Scharniere der Staatshöhen nahe 11.000 und 1.000, was eine Streuung um 10.000 ergibt. Das Multiplizieren mit 1,5 und 3 ergibt Entfernungen von 15.000 und 30.000. Somit muss der unsichtbare obere Zaun nahe 11.000 + 15.000 = 26.000 sein und der untere Zaun würde bei 1.000 - 15.000 unter Null liegen. Die entfernten Zäune würden nahe 11.000 + 30.000 = 41.000 und 1.000 - 30.000 = sein -29.000.)
Verweise
Tufte, Edward. Die visuelle Anzeige quantitativer Informationen. Cheshire Press, 1983.
Tukey, John. Kapitel 2, EDA . Addison-Wesley, 1977.