Die Whisker eines Boxplots verstehen

Ich habe eine Frage zur Interpretation der Whisker eines Boxplots. Ich habe Folgendes gelesen: "Oben und unten im Rechteck zeigen die" Whisker "den Bereich des 1,5-fachen Abstands zwischen den 0,25- und 0,75-Quantilen", verstehe aber nicht ganz, was unter "Abstand" zu verstehen ist. .

Es kann nicht sein, dass die Wahrscheinlichkeitsmasse gemeint ist, da wir zwischen dem Quantil von 0,25 und 0,75 offensichtlich immer den gleichen Prozentsatz an Daten haben. Was ist dann die Idee?

data-visualization boxplot

— Gast555
quelle

Der Wert von X, der dem 75-Quantil minus dem Wert von X entspricht, der dem 25. entspricht, ist der Abstand. Für den SAT-Mathe-Test ist beispielsweise 620 das 75. und 520 das 25. Quantil. Wenn Sie also über 620 Punkte erzielen, sind Sie besser als 75% der Testteilnehmer. Die Whisker würden bis zu 1,5 * (620-520) Punkte lang sein.

— Dimitriy V. Masterov
quelle

Nun, aber dann wären die Schnurrhaare auf beiden Seiten der Schachtel gleich lang (was nicht unbedingt der Fall ist).

— Guest555

+1, eine (etwas mehr) vollständige Antwort ist, dass die Whisker bis zu 1,5 * IQR haben. Wenn Sie innerhalb dieses Intervalls keine Daten mehr haben, stoppt der Whisker kurz. Darüber hinaus werden alle zusätzlichen Daten, die über diesen Punkt hinausgehen, einzeln als potenzielle Ausreißer dargestellt.

— Gung - Reinstate Monica

Mit dieser kleinen zusätzlichen Erklärung ist es jetzt klar, vielen Dank!

— Gast 555

Ich habe die Antwort mit @ gungs ausgezeichnetem Punkt bearbeitet.

— Dimitriy V. Masterov

@ Gung und eine noch vollständigere Antwort ist, dass die Schnurrhaare immer auf einem vorhandenen Punkt in den Daten liegen

— Hadley

Ein Boxplot soll einen relativ kleinen Datensatz auf eine Weise zusammenfassen, die klar zeigt

Ein zentraler Wert.
Die Verbreitung "typischer" Werte.
Einzelwerte, die im Verhältnis zum Spread so stark vom zentralen Wert abweichen, dass sie für besondere Aufmerksamkeit herausgegriffen und separat identifiziert werden (z. B. namentlich). Diese werden als "identifizierte Werte" bezeichnet.

Dies ist auf robuste Weise zu tun : Das heißt, das Boxplot sollte nicht wesentlich anders aussehen, wenn einer oder ein relativ kleiner Teil der Datenwerte willkürlich geändert wird.

Die von seinem Erfinder John Tukey angenommene Lösung besteht darin, die Auftragsstatistik - die Daten vom niedrigsten zum höchsten sortiert - systematisch zu verwenden. Der Einfachheit halber (er rechnete mental oder mit Bleistift und Papier) konzentrierte sich Tukey auf Mediane : die Mittelwerte von Zahlenreihen. (Für Chargen mit geraden Zählwerten verwendete Tukey den Mittelpunkt der beiden Mittelwerte.) Ein Median ist resistent gegen Änderungen in bis zu der Hälfte der Daten, auf denen er basiert, und eignet sich daher hervorragend als robuste Statistik. Somit:

Der zentrale Wert wird mit dem Median aller Daten geschätzt.
Die Streuung wird mit der Differenz zwischen den Medianen der "oberen Hälfte" - alle Daten gleich oder über dem Median - und der "unteren Hälfte" - alle Daten gleich oder kleiner als der Median - geschätzt. Diese beiden Mediane werden als obere und untere "Scharniere" oder "Viertel" bezeichnet. Sie neigen heutzutage dazu, durch Dinge ersetzt zu werden, die Quartile genannt werden (die leider keine universelle Definition haben).
Unsichtbare Zäune zum Abschirmen von Ausreißern werden 1,5- und 3-mal so weit über die Scharniere hinaus (vom zentralen Wert entfernt) errichtet.
- "Der Wert an jedem Ende, das dem inneren Zaun am nächsten liegt, aber immer noch darin liegt, ist 'benachbart'."
- Werte jenseits des ersten Zauns werden als "Ausreißer" bezeichnet.
- Werte jenseits des zweiten Zauns sind "weit draußen".

(Diejenigen, die alt genug sind, um sich an den Hippie-Argot der 60er Jahre zu erinnern , werden den Witz verstehen.)

Da es sich bei der Streuung um eine Differenz der Datenwerte handelt, haben diese Zäune die gleichen Maßeinheiten wie die Originaldaten: Dies ist das Gefühl der "Entfernung" in der Frage.

In Bezug auf die zu identifizierenden Datenwerte schrieb Tukey

Wir können zumindest die Extremwerte identifizieren und könnten gut daran tun, einige weitere zu identifizieren.

Jede grafische Methode zur Anzeige des Medians, der Scharniere und der identifizierten Werte verdient wohl die Bezeichnung "Boxplot" (ursprünglich "Box-and-Whisker-Plot"). Die Zäune sind normalerweise nicht abgebildet. Tukeys Design besteht aus einem Rechteck, das die Scharniere mit einer "Taille" im Median beschreibt. Unauffällige linienartige "Whisker" erstrecken sich von den Scharnieren nach außen bis zu den innersten identifizierten Werten (sowohl über als auch unter der Box). Normalerweise sind diese innersten identifizierten Werte die oben definierten benachbarten Werte.

Folglich besteht das Standard-Erscheinungsbild eines Boxplots darin, die Whisker auf die extremsten nicht abweichenden Datenwerte zu erweitern und (durch Textbeschriftungen) die Daten zu identifizieren, die die Enden der Whisker und alle Ausreißer umfassen. Zum Beispiel ist der Tupungatito-Vulkan der hohe benachbarte Wert für die rechts in der Abbildung dargestellten Vulkanhöhendaten: Der Whisker stoppt dort. Tupungatito und alle größeren Vulkane werden separat identifiziert.

Damit die Daten korrekt angezeigt werden, ist der Abstand in der Grafik proportional zu den Unterschieden bei den Datenwerten. (Jede Abweichung von der direkten Verhältnismäßigkeit würde einen "Lügenfaktor" in die Terminologie von Tufte (1983) einführen.)

Diese beiden Boxplots aus Tukeys Buch EDA (S. 41) veranschaulichen die Komponenten. Es ist bemerkenswert, dass er nicht abweichende Werte am oberen und unteren Ende des US-Datensatzes links und einen niedrigen nicht abweichenden Wert der Vulkanhöhen rechts identifiziert hat. Dies veranschaulicht das Zusammenspiel von Regeln und Urteilsvermögen , das das Buch durchdringt.

(Sie können feststellen, dass diese identifizierten Daten nicht außerhalb liegen, da Sie die Positionen der Zäune schätzen können. Beispielsweise liegen die Scharniere der Staatshöhen nahe 11.000 und 1.000, was eine Streuung um 10.000 ergibt. Das Multiplizieren mit 1,5 und 3 ergibt Entfernungen von 15.000 und 30.000. Somit muss der unsichtbare obere Zaun nahe 11.000 + 15.000 = 26.000 sein und der untere Zaun würde bei 1.000 - 15.000 unter Null liegen. Die entfernten Zäune würden nahe 11.000 + 30.000 = 41.000 und 1.000 - 30.000 = sein -29.000.)

Verweise

Tufte, Edward. Die visuelle Anzeige quantitativer Informationen. Cheshire Press, 1983.

Tukey, John. Kapitel 2, EDA . Addison-Wesley, 1977.

— whuber
quelle