Ich würde sagen, dass Sie bei Daten wie diesen wirklich Ergebnisse in einem transformierten Maßstab anzeigen müssen. Das ist der erste Imperativ und eine wichtigere Frage als genau das Zeichnen eines Boxplots.
Aber ich stimme Frank Harrell darin zu, etwas Informativeres als eine minimale Box-Handlung zu fordern, selbst wenn einige extreme Punkte identifiziert wurden. Sie haben genügend Platz, um viel mehr Informationen anzuzeigen. Hier ist eines von vielen Beispielen, ein Hybrid-Box- und Quantil-Plot. Wie in Ihren Daten werden zwei Gruppen verglichen.
Ich werde diese beiden Punkte einzeln aufgreifen und mehr sagen.
Transformierte Skala
Im einfachsten Fall können alle Ihre Werte positiv sein, und Sie sollten zuerst versuchen, eine logarithmische Skala zu verwenden.
Wenn Sie exakte Nullen haben, verbessert eine Quadratwurzel- oder Kubikwurzelskala die extreme Schiefe. Einige Leute sind mit log (Wert + Konstante) zufrieden, wobei Konstante am häufigsten 1 ist, um mit Nullen umzugehen.
Die Auswirkungen der Verwendung einer transformierten Skala auf Box-Plots sind subtil.
Wenn Sie die übliche Tukey-Konvention verwenden, nach der alle Punkte nach dem oberen Quartil + 1,5 IQR oder dem unteren Quartil - 1,5 IQR einzeln angezeigt werden, sollten diese Grenzwerte möglicherweise auf der transformierten Skala berechnet werden. Dies ist nicht dasselbe wie das Berechnen dieser Grenzwerte auf der ursprünglichen Skala und anschließendes Transformieren.
Stattdessen würde ich eine scheinbar immer noch in der Minderheit befindliche Konvention unterstützen, Quantile für die Enden von Whiskern auszuwählen. Einer von mehreren Vorteilen besteht darin, dass die Transformation von Quantil = Quantil der Transformation in den meisten Fällen für grafische Zwecke zumindest eng genug ist. (Das Kleingedruckte ist immer dann, wenn Quantile durch lineare Interpolation zwischen benachbarten Ordnungsstatistiken berechnet werden.)
Diese Quantilkonvention wurde von Cleveland (1985) ziemlich prominent vorgeschlagen. Für die Aufzeichnung wurden verbesserte Boxplots mit Boxen zu Quartilen, dünnere Boxen zu äußeren Oktilen (12,5 und 87,5% Punkte) und Streifenplots von Daten in der Geographie und Klimatologie von (z. B.) Matthews (1936) und Grove (1956) verwendet den Namen "Dispersionsdiagramme".
Mehr als Boxplots
Box Plots wurden von Tukey um 1970 neu erfunden und in seinem Buch von 1977 am sichtbarsten beworben. Sein Hauptanliegen war es, Grafiken zu fördern, die bei informellen Untersuchungen schnell mit Stift (CIL) und Papier gezeichnet werden konnten. Er schlug auch Möglichkeiten vor, mögliche Ausreißer zu identifizieren. Das war in Ordnung, aber jetzt haben wir alle Zugang zu Computern. Es ist kein Problem, Diagramme zu zeichnen, die zeigen, wenn nicht alle Daten, dann zumindest viel detaillierter. Die zusammenfassende Rolle von Boxplots ist wertvoll, aber eine Grafik kann auch die Feinstruktur zeigen, falls sie interessant oder wichtig ist. (Und was Forscher für uninteressant oder unwichtig halten, könnte für ihre Leser auffälliger sein.)
Es gibt viel Raum für höfliche Meinungsverschiedenheiten darüber, was genau am besten funktioniert, aber meiner Ansicht nach sind Grundstücke mit leeren Kisten ziemlich überverkauft.
Stata-Benutzer können mehr über das Programm erfahren, das die Figur in diesem statistischen Beitrag gezeichnet hat . Benutzer anderer Software sollten keine Schwierigkeiten haben, etwas so gut oder besser zu zeichnen (warum sonst diese Software verwenden?).
Cleveland, WS 1985. Elemente von Grafikdaten. Monterey, Kalifornien: Wadsworth.
Grove, AT 1956. Bodenerosion in Nigeria. In Steel, RW und Fisher, CA (Hrsg.)
Geografische Aufsätze über britische tropische Länder. London: George Philip, 79-111.
Matthews, HA 1936. Eine neue Ansicht einiger bekannter indischer Regenfälle. Scottish Geographical Magazine 52: 84 & ndash; 97.
Tukey, JW 1977. Explorative Datenanalyse. Reading, MA: Addison-Wesley.