Abweichung vom Boxplot ableiten

Ich habe mich gefragt, wie ich aus einem Boxplot die Varianz einer Variablen ableiten kann. Lässt sich zumindest ableiten, ob zwei Variablen unter Berücksichtigung ihres Boxplots dieselbe Varianz aufweisen?

variance boxplot

— Donbeo
quelle

Kürzlich stolperte über diesen Artikel über ein ähnliches Thema. Hoffe, es würde Ihnen einen Einblick geben.

— Penguin_Knight

Antworten:

Nicht ohne viele strenge Annahmen, nein. Wenn Sie annehmen würden, dass die Antwort Ja lautet (anstatt zu fragen, wofür ich Sie begrüße), könnte ich Sie mit diesem (Gegen-) Beispiel täuschen:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

Sieht ziemlich ähnlich aus, oder? Dennoch ist ! $\sigma^2_1=1,\sigma^2_2=1.96$

Falls sich aus dem Code nichts 2ergibt , ist die Grundgesamtheit :

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

Und nein, Sie können nicht ableiten, dass diese Population normal ist, nur weil sie genau symmetrisch ist. Hier ist eine QQ-Darstellung der Bevölkerung 2:

Sicher sieht das für mich nicht normal aus.

Bearbeiten - Antwort auf Ihren Kommentar:

Varianz ist eine numerische Statistik. Wenn die Varianzen zweier Distributionen buchstäblich gleich sind, ist das so ziemlich alles, was Sie dazu sagen müssen. Wenn zwei Verteilungen genau normal sind, gibt es wieder eine mathematische Definition , zu der beide passen. Wenn zwei Verteilungen nicht genau normal oder in der Varianz gleich sind, sollten Sie nichts anderes sagen. Wenn Sie sagen möchten, dass sie ungefähr gleich oder normal sind, sollten Sie "ungefähr genug" auf eine Weise definieren, die auf Ihre Zwecke zugeschnitten ist, die Sie hier nicht angegeben haben. Die Empfindlichkeit für Verteilungsunterschiede variiert stark in den Analysen, die normalerweise Fragen wie die Ihre auslösen. Beispielsweise, $t$ Es ist ziemlich robust gegenüber Verstößen gegen letztere (bei gleicher Stichprobengröße ), daher würde ich diesen Test nicht empfehlen, um meine Population 2mit der Population zu vergleichen 1(die Normalverteilung).

— Nick Stauner
quelle

Gutes Beispiel. Nick benutzt R. (Bis jeder R benutzt, ist es eine gute Übung, das zu erwähnen.)

— Nick Cox

Kann nicht umhin zu glauben, dass dies ein guter Tag für die Wissenschaft insgesamt sein würde :)

— Nick Stauner

Ich habe einen langen Aufsatz darüber, aber irgendwie passt es nicht in den verfügbaren Raum.

— Nick Cox

Gute Antwort. Können Sie schreiben, welche Informationen wir melden sollten, um zu sagen: "Sie sind normal und die Varianz ist die gleiche"

— Donbeo

Bearbeitet, um zu antworten.

— Nick Stauner

Dies wurde gut beantwortet. Diese zusätzlichen Kommentare sind etwas zu lang (UPDATE: jetzt viel zu lang), als dass sie kommentiert werden könnten.

Streng genommen können Sie aus einem Boxplot nur den Interquartilbereich (Länge oder Höhe der Box) und den Bereich (Länge oder Höhe zwischen den Extremwerten der Anzeige) über die Variabilität einer Verteilung ablesen.

In etwa weisen scheinbar identische Box-Plots wahrscheinlich sehr ähnliche Abweichungen auf, achten Sie jedoch darauf. Bei Box-Plots mit sehr unterschiedlichen Box-Positionen oder Tails (oder beiden) ist es sehr unwahrscheinlich, dass sie ähnliche Varianzen aufweisen, dies ist jedoch nicht unmöglich. Aber selbst wenn Box-Diagramme identisch aussehen, erhalten Sie in einem einfachen oder Vanille-Box-Diagramm keine Informationen über die Variabilität innerhalb der Box oder tatsächlich die Variabilität innerhalb der Whisker (die Linien, die häufig zwischen der Box und den Datenpunkten innerhalb von 1,5 IQR des näheren Quartils angezeigt werden). . Hinweis: Es gibt verschiedene Varianten von Boxplots. Autoren sind oft nicht in der Lage, die genauen Regeln zu dokumentieren, die von ihrer Software verwendet werden.

Die Beliebtheit des Boxplots hat seinen Preis. Box-Plots können sehr nützlich sein, um die Bruttomerkmale vieler Gruppen oder Variablen anzuzeigen (z. B. 20 oder 30, manchmal sogar mehr). Meiner Ansicht nach werden sie häufig zum Vergleichen von beispielsweise 2 oder 3 Gruppen verwendet und sind überverkauft, da andere Diagramme im selben Raum deutlich detaillierter dargestellt werden können. Natürlich ist dies weit verbreitet, wenn nicht allgemein anerkannt, und verschiedene Verbesserungen des Boxplots zeigen mehr Details.

Bei schwerwiegenden Abweichungen muss auf die Originaldaten zugegriffen werden.

Dies ist ein breiter Pinsel, und weitere Details könnten hinzugefügt werden. Zum Beispiel liefert die Position des Medians in der Box manchmal etwas mehr Informationen.

AKTUALISIEREN

Ich vermute, dass viel mehr Menschen an der Verwendung (und den Einschränkungen) von Boxplots im Allgemeinen interessiert sind als an der spezifischen Frage, welche Varianz aus einem Boxplot abgeleitet werden soll (auf die die kurze Antwort lautet: "Sie können nicht, außer indirekt, ungefähr, und manchmal "), also werde ich noch weitere Kommentare zu Alternativen hinzufügen, wie von Christian Sauer gefordert.

Mit Bedacht eingesetzte Histogramme sind oft noch wettbewerbsfähig. Der moderne klassische Einführungstext von Freedman, Pisani und Purves verwendet sie durchgehend.
Was als Punkt- oder Streifendiagramme (Charts) (und unter vielen anderen Namen) bekannt ist, ist leicht zu verstehen. Falls gewünscht, können identische Punkte nach dem Binning gestapelt werden. Sie können nach Herzenslust Median und Quartile oder Mittel- und Konfidenzintervalle hinzufügen.
Quantile Plots sind anscheinend ein erworbener Geschmack, aber in vielerlei Hinsicht am vielseitigsten. Ich füge hier sowohl Darstellungen der geordneten Werte als auch der kumulativen Wahrscheinlichkeit (Darstellungsposition) sowie Quantil-Darstellungen ein, die gerade wären, wenn die Daten eine "Markennamen" -Verteilung wären (normal, exponentiell, Gamma, was auch immer). (Dank an @Scortchi für den Verweis auf "Markenname", wie er von CJ Geyer verwendet wird.)

Eine vollständige Auflistung ist jedoch nicht möglich. (Ich füge zum Beispiel gelegentlich hinzu, dass eine Stamm- und Blattdarstellung genau das Richtige ist, um wichtige Details in Daten zu sehen, beispielsweise wenn die Präferenz für Ziffern weit verbreitet ist.) Das Schlüsselprinzip ist, dass die besten Arten von Verteilungsplots zulässig sind die scheinbar unmögliche Wahrnehmung der Feinstruktur in Daten, die interessant oder wichtig sein könnten (Modalität, Granularität, Ausreißer usw.) sowie der groben Struktur (Ebene, Ausbreitung, Schiefe usw.).

Box-Plots können nicht alle Arten von Strukturen gleich gut darstellen. Sie können und sollten nicht sein. Es ist erwähnenswert, dass JW Tukey in " Exploratory Data Analysis Reading", MA: Addison-Wesley (1977), ein Beispiel für bimodale Daten von Rayleigh gegeben hat, bei denen ein Box-Plot die Hauptstruktur vollständig verdeckt. Als großartiger Statistiker war er sich bewusst, dass Boxplots nicht immer die Antwort waren.

Eine bizarre Praxis, die in einführenden Texten weit verbreitet ist, diskutiert die ANOVA und lädt die Leser ein, Box-Plots zu betrachten, in denen Mediane und Quartile, nicht Mittelwerte und Varianzen (eher SDs) gezeigt werden. Natürlich ist das Betrachten der Daten viel besser als das Nicht-Betrachten, aber dennoch ist eine geeignetere grafische Darstellung wahrscheinlich eine grafische Darstellung der Rohdaten mit angepassten Mitteln +/- ein geeignetes Vielfaches von SE.

— Nick Cox
quelle

Nick, könntest du die Alternativen zu Boxplots für eine kleine Anzahl von Variablen beschreiben?

— Christian Sauer

@ChristianSauer Danke für die Aufforderung: siehe Update.

— Nick Cox

Vielen Dank für das sehr schöne Update. Ihr letzter Absatz gefällt mir besonders gut, ich finde Box-Plots, die mit ANOVA und / oder Regression gekoppelt sind, ziemlich verwirrend - es ist wie ein Vergleich von Äpfeln und Orangen.

— Christian Sauer

Statistiken stecken wie jede andere Wissenschaft voller bizarrer Terminologie, Notation und Analysegewohnheiten, die gerade von anderen kopiert wurden.

— Nick Cox

Ich stimme vollkommen zu - in meiner Masterarbeit habe ich unabhängige Variablen auf ihre Normalverteilung überprüft ... das ist die beste Form der Frachtkultstatistik :(

— Christian Sauer

Ein naiver Ansatz:

$0.67\cdot\sigma$ $1.35\cdot \sigma$ ) . In einem Boxplot deckt der Intequartilbereich (IQR, der Abstand vom unteren Rand der Box zum oberen Rand) die zu 50% zentrierte Probenmenge ab.

$IQR=1.35\cdot\sigma$ $\sigma=0.74\cdot IQR$

Und zum Vergleich von Varianzen per Boxplot: Breitere Boxen bedeuten größere Varianzen, aber das gibt Ihnen ein erklärendes Verständnis und Sie müssen auch Whisker und Ausreißer berücksichtigen. Zur Bestätigung sollten Sie den Hypothesenkontrast verwenden.

— Rufo
quelle

Um die Varianz zu vergleichen, müssen wir noch annehmen, dass beide Verteilungen normal sind. Können wir daraus schließen, dass die Variable normal ist, wenn das Kästchen symmetrisch zur Mitte ist?

— Donbeo

Ich abonniere alles, was @Nick_Stauner sagt. Ich habe angenommen, dass Ihre Populationen normal sind, was unter anderem aber nicht nur Symmetrie und Kurtosis = 0 erfordert. Diese Annahme wird häufig verletzt.

— Rufo

Kurtosis wird auf verschiedene Arten definiert. Bei einer anderen (einfacheren) Definition hat eine normale (Gauß'sche) Kurtosis 3. Sie müssen überprüfen, welche Definition Ihre Software verwendet, wenn Sie sie in der Praxis berechnen.

— Nick Cox

Für eine Normalverteilung wäre das Kurtosis 3, überschüssige Kurtosis 0 , wenn ich mich nicht irre. Ich bin neugierig, ob populäre Software-Pakete standardmäßig nicht-überschüssige Kurtosis produzieren. Das würde wahrscheinlich eine Menge Verwirrung stiften (um nicht zu leugnen, dass die Menschen im Allgemeinen etwas verwirrt sind, wenn in der entgegengesetzten Praxis das "Übermaß"

— weggelassen wird

Stata erzeugt standardmäßig eine Kurtosis. "Exzessive Kurtosis" ist aus meiner Sicht ein schrecklicher Begriff, der jedoch nicht ausgemerzt werden kann. Kurtosis, wie sie am einfachsten im zweiten und vierten Moment definiert wird, hat viel schönere Eigenschaften als (Kurtosis)

-

$-$ 3); Die Verwendung der letzten Definition kann auf übermäßige Verehrung der Normalverteilung zurückgeführt werden, da es sich irgendwie um das "Normale" handelt (alle Wortspiele beabsichtigt), von dem andere Verteilungen abweichen. Wir sollten eine breitere Sicht darauf haben, welche Verteilungen möglich und natürlich sind.

— Nick Cox