Ich habe mich gefragt, wie ich aus einem Boxplot die Varianz einer Variablen ableiten kann. Lässt sich zumindest ableiten, ob zwei Variablen unter Berücksichtigung ihres Boxplots dieselbe Varianz aufweisen?
Ich habe mich gefragt, wie ich aus einem Boxplot die Varianz einer Variablen ableiten kann. Lässt sich zumindest ableiten, ob zwei Variablen unter Berücksichtigung ihres Boxplots dieselbe Varianz aufweisen?
Antworten:
Nicht ohne viele strenge Annahmen, nein. Wenn Sie annehmen würden, dass die Antwort Ja lautet (anstatt zu fragen, wofür ich Sie begrüße), könnte ich Sie mit diesem (Gegen-) Beispiel täuschen:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Sieht ziemlich ähnlich aus, oder? Dennoch ist !
Falls sich aus dem Code nichts 2
ergibt , ist die Grundgesamtheit :
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
Und nein, Sie können nicht ableiten, dass diese Population normal ist, nur weil sie genau symmetrisch ist. Hier ist eine QQ-Darstellung der Bevölkerung 2
:
Sicher sieht das für mich nicht normal aus.
Bearbeiten - Antwort auf Ihren Kommentar:
Varianz ist eine numerische Statistik. Wenn die Varianzen zweier Distributionen buchstäblich gleich sind, ist das so ziemlich alles, was Sie dazu sagen müssen. Wenn zwei Verteilungen genau normal sind, gibt es wieder eine mathematische Definition , zu der beide passen. Wenn zwei Verteilungen nicht genau normal oder in der Varianz gleich sind, sollten Sie nichts anderes sagen. Wenn Sie sagen möchten, dass sie ungefähr gleich oder normal sind, sollten Sie "ungefähr genug" auf eine Weise definieren, die auf Ihre Zwecke zugeschnitten ist, die Sie hier nicht angegeben haben. Die Empfindlichkeit für Verteilungsunterschiede variiert stark in den Analysen, die normalerweise Fragen wie die Ihre auslösen. Beispielsweise,Es ist ziemlich robust gegenüber Verstößen gegen letztere (bei gleicher Stichprobengröße ), daher würde ich diesen Test nicht empfehlen, um meine Population 2
mit der Population zu vergleichen 1
(die Normalverteilung).
Dies wurde gut beantwortet. Diese zusätzlichen Kommentare sind etwas zu lang (UPDATE: jetzt viel zu lang), als dass sie kommentiert werden könnten.
Streng genommen können Sie aus einem Boxplot nur den Interquartilbereich (Länge oder Höhe der Box) und den Bereich (Länge oder Höhe zwischen den Extremwerten der Anzeige) über die Variabilität einer Verteilung ablesen.
In etwa weisen scheinbar identische Box-Plots wahrscheinlich sehr ähnliche Abweichungen auf, achten Sie jedoch darauf. Bei Box-Plots mit sehr unterschiedlichen Box-Positionen oder Tails (oder beiden) ist es sehr unwahrscheinlich, dass sie ähnliche Varianzen aufweisen, dies ist jedoch nicht unmöglich. Aber selbst wenn Box-Diagramme identisch aussehen, erhalten Sie in einem einfachen oder Vanille-Box-Diagramm keine Informationen über die Variabilität innerhalb der Box oder tatsächlich die Variabilität innerhalb der Whisker (die Linien, die häufig zwischen der Box und den Datenpunkten innerhalb von 1,5 IQR des näheren Quartils angezeigt werden). . Hinweis: Es gibt verschiedene Varianten von Boxplots. Autoren sind oft nicht in der Lage, die genauen Regeln zu dokumentieren, die von ihrer Software verwendet werden.
Die Beliebtheit des Boxplots hat seinen Preis. Box-Plots können sehr nützlich sein, um die Bruttomerkmale vieler Gruppen oder Variablen anzuzeigen (z. B. 20 oder 30, manchmal sogar mehr). Meiner Ansicht nach werden sie häufig zum Vergleichen von beispielsweise 2 oder 3 Gruppen verwendet und sind überverkauft, da andere Diagramme im selben Raum deutlich detaillierter dargestellt werden können. Natürlich ist dies weit verbreitet, wenn nicht allgemein anerkannt, und verschiedene Verbesserungen des Boxplots zeigen mehr Details.
Bei schwerwiegenden Abweichungen muss auf die Originaldaten zugegriffen werden.
Dies ist ein breiter Pinsel, und weitere Details könnten hinzugefügt werden. Zum Beispiel liefert die Position des Medians in der Box manchmal etwas mehr Informationen.
AKTUALISIEREN
Ich vermute, dass viel mehr Menschen an der Verwendung (und den Einschränkungen) von Boxplots im Allgemeinen interessiert sind als an der spezifischen Frage, welche Varianz aus einem Boxplot abgeleitet werden soll (auf die die kurze Antwort lautet: "Sie können nicht, außer indirekt, ungefähr, und manchmal "), also werde ich noch weitere Kommentare zu Alternativen hinzufügen, wie von Christian Sauer gefordert.
Mit Bedacht eingesetzte Histogramme sind oft noch wettbewerbsfähig. Der moderne klassische Einführungstext von Freedman, Pisani und Purves verwendet sie durchgehend.
Was als Punkt- oder Streifendiagramme (Charts) (und unter vielen anderen Namen) bekannt ist, ist leicht zu verstehen. Falls gewünscht, können identische Punkte nach dem Binning gestapelt werden. Sie können nach Herzenslust Median und Quartile oder Mittel- und Konfidenzintervalle hinzufügen.
Quantile Plots sind anscheinend ein erworbener Geschmack, aber in vielerlei Hinsicht am vielseitigsten. Ich füge hier sowohl Darstellungen der geordneten Werte als auch der kumulativen Wahrscheinlichkeit (Darstellungsposition) sowie Quantil-Darstellungen ein, die gerade wären, wenn die Daten eine "Markennamen" -Verteilung wären (normal, exponentiell, Gamma, was auch immer). (Dank an @Scortchi für den Verweis auf "Markenname", wie er von CJ Geyer verwendet wird.)
Eine vollständige Auflistung ist jedoch nicht möglich. (Ich füge zum Beispiel gelegentlich hinzu, dass eine Stamm- und Blattdarstellung genau das Richtige ist, um wichtige Details in Daten zu sehen, beispielsweise wenn die Präferenz für Ziffern weit verbreitet ist.) Das Schlüsselprinzip ist, dass die besten Arten von Verteilungsplots zulässig sind die scheinbar unmögliche Wahrnehmung der Feinstruktur in Daten, die interessant oder wichtig sein könnten (Modalität, Granularität, Ausreißer usw.) sowie der groben Struktur (Ebene, Ausbreitung, Schiefe usw.).
Box-Plots können nicht alle Arten von Strukturen gleich gut darstellen. Sie können und sollten nicht sein. Es ist erwähnenswert, dass JW Tukey in " Exploratory Data Analysis Reading", MA: Addison-Wesley (1977), ein Beispiel für bimodale Daten von Rayleigh gegeben hat, bei denen ein Box-Plot die Hauptstruktur vollständig verdeckt. Als großartiger Statistiker war er sich bewusst, dass Boxplots nicht immer die Antwort waren.
Eine bizarre Praxis, die in einführenden Texten weit verbreitet ist, diskutiert die ANOVA und lädt die Leser ein, Box-Plots zu betrachten, in denen Mediane und Quartile, nicht Mittelwerte und Varianzen (eher SDs) gezeigt werden. Natürlich ist das Betrachten der Daten viel besser als das Nicht-Betrachten, aber dennoch ist eine geeignetere grafische Darstellung wahrscheinlich eine grafische Darstellung der Rohdaten mit angepassten Mitteln +/- ein geeignetes Vielfaches von SE.
Ein naiver Ansatz:
) . In einem Boxplot deckt der Intequartilbereich (IQR, der Abstand vom unteren Rand der Box zum oberen Rand) die zu 50% zentrierte Probenmenge ab.
Und zum Vergleich von Varianzen per Boxplot: Breitere Boxen bedeuten größere Varianzen, aber das gibt Ihnen ein erklärendes Verständnis und Sie müssen auch Whisker und Ausreißer berücksichtigen. Zur Bestätigung sollten Sie den Hypothesenkontrast verwenden.