Ein Maß für die Schiefe basiert auf dem mittleren Median - Pearsons zweitem Schiefheitskoeffizienten .
Ein weiteres Maß für die Schiefe basiert auf den relativen Quartildifferenzen (Q3-Q2) gegenüber (Q2-Q1), ausgedrückt als Verhältnis
u = 0,25
Das häufigste Maß ist natürlich die Schrägstellung im dritten Moment .
Es gibt keinen Grund, warum diese drei Maßnahmen unbedingt konsistent sein müssen. Jeder von ihnen kann sich von den beiden anderen unterscheiden.
Was wir als "Schiefe" betrachten, ist ein etwas rutschiges und schlecht definiertes Konzept. Weitere Informationen finden Sie hier .
Wenn wir Ihre Daten mit einem normalen qqplot betrachten:
[Die dort markierte Linie basiert nur auf den ersten 6 Punkten, da ich die Abweichung der letzten beiden von dem dortigen Muster diskutieren möchte.]
Wir sehen, dass die kleinsten 6 Punkte fast perfekt auf der Linie liegen.
Dann liegt der 7. Punkt unterhalb der Linie (näher an der Mitte als der entsprechende zweite Punkt vom linken Ende), während der 8. Punkt weit darüber liegt.
Der siebte Punkt deutet auf einen leichten linken Versatz hin, der letzte auf einen stärkeren rechten Versatz. Wenn Sie einen Punkt ignorieren, wird der Eindruck der Schiefe vollständig vom anderen bestimmt.
Wenn ich hatte zu sagen , war es das eine oder andere, ich das „richtige Skew“ nennen würde , aber ich würde auch darauf hinweisen, dass der Eindruck , ausschließlich auf die Wirkung , dass eine sehr große Punkt war. Ohne es gibt es wirklich nichts zu sagen, dass es richtig schief ist. (Auf der anderen Seite bleibt es ohne den 7. Punkt eindeutig nicht schief.)
Wir müssen sehr vorsichtig sein, wenn unser Eindruck ausschließlich durch einzelne Punkte bestimmt ist und durch Entfernen eines Punktes umgedreht werden kann. Das ist keine gute Basis, um fortzufahren!
Ich beginne mit der Prämisse, dass das, was einen Ausreißer zu einem „Ausreißer“ macht, das Modell ist (was in Bezug auf ein Modell ein Ausreißer ist, kann für ein anderes Modell durchaus typisch sein).
Ich denke, eine Beobachtung am 0,01 oberen Perzentil (1/10000) einer Normalen (3,72 sds über dem Mittelwert) ist ebenso ein Ausreißer zum Normalmodell wie eine Beobachtung am 0,01 oberen Perzentil einer Exponentialverteilung zum Exponentialmodell. (Wenn wir eine Verteilung durch ihre eigene Wahrscheinlichkeitsintegraltransformation transformieren, wird jede zur gleichen Uniform gehen.)
Simulieren Sie große Stichproben aus einer Exponentialverteilung, um das Problem beim Anwenden der Boxplot-Regel auch auf eine mäßig richtige Versatzverteilung zu erkennen.
Wenn wir beispielsweise Stichproben der Größe 100 aus einer normalen Stichprobe simulieren, berechnen wir im Durchschnitt weniger als einen Ausreißer pro Stichprobe. Wenn wir es mit einem Exponential machen, dann mitteln wir um 5. Aber es gibt keine reale Basis, auf der man sagen kann, dass ein höherer Anteil von Exponentialwerten "außerhalb" liegt, es sei denn, wir machen es im Vergleich mit einem normalen Modell. In bestimmten Situationen kann es bestimmte Gründe geben, eine Ausreißerregel in einer bestimmten Form zu haben, aber es gibt keine allgemeine Regel, die allgemeine Prinzipien wie die in diesem Unterabschnitt verwendete enthält - jedes Modell / jede Verteilung mit eigenen Lichtern zu behandeln (Wenn ein Wert in Bezug auf ein Modell nicht ungewöhnlich ist, warum sollte er in dieser Situation als Ausreißer bezeichnet werden?)
Um sich der Frage im Titel zuzuwenden :
Während es sich um ein ziemlich grobes Instrument handelt (weshalb ich mir die QQ-Darstellung angesehen habe), gibt es in einem Boxplot mehrere Anzeichen für eine Schräglage - wenn mindestens ein Punkt als Ausreißer markiert ist, gibt es möglicherweise (mindestens) drei:
In diesem Beispiel (n = 100) markieren die äußeren Punkte (grün) die Extreme und weisen mit dem Median auf eine linke Schiefe hin. Dann deuten die Zäune (blau) (in Kombination mit dem Median) auf die richtige Schiefe hin. Dann deuten die Scharniere (Quartile, braun) in Kombination mit dem Median auf eine linke Schräglage hin.
Wie wir sehen, müssen sie nicht konsistent sein. Worauf Sie sich konzentrieren würden, hängt von der Situation ab, in der Sie sich befinden (und möglicherweise von Ihren Vorlieben).
Eine Warnung, wie grob der Boxplot ist. Das Beispiel gegen Ende hier - die eine Beschreibung enthält , wie die Daten zu erzeugen , - gibt vier ganz unterschiedliche Verteilungen mit dem gleichen boxplot:
Wie Sie sehen können, gibt es eine recht verzerrte Verteilung, bei der alle oben genannten Indikatoren für die Verzerrung eine perfekte Symmetrie aufweisen.
-
Nehmen wir dies unter dem Gesichtspunkt "Welche Antwort erwartete Ihr Lehrer, da dies ein Boxplot ist, der einen Punkt als Ausreißer kennzeichnet?".
Wir bleiben mit der ersten Antwort zurück: "Erwarten sie, dass Sie die Schiefe ohne diesen Punkt oder mit diesem Punkt in der Stichprobe bewerten?". Einige würden es ausschließen und die Schiefe von dem abschätzen, was übrig bleibt, wie es JSK in einer anderen Antwort getan hat. Während ich Aspekte dieses Ansatzes bestritten habe, kann ich nicht sagen, dass es falsch ist - das hängt von der Situation ab. Einige würden es einschließen (nicht zuletzt, weil das Ausschließen von 12,5% Ihrer Stichprobe aufgrund einer von der Normalität abgeleiteten Regel ein großer Schritt ist *).
* Stellen Sie sich eine Populationsverteilung vor, die bis auf den äußersten rechten Schwanz symmetrisch ist. Wenn ich Proben der Größe 8 zeichne, stammen oft 7 der Beobachtungen aus dem normal aussehenden Teil und eine aus dem oberen Schwanz. Wenn wir in diesem Fall die als Boxplot-Ausreißer markierten Punkte ausschließen, schließen wir den Punkt aus, der uns sagt, dass es sich tatsächlich um einen Versatz handelt! Wenn wir dies tun, ist die abgeschnittene Verteilung, die in dieser Situation verbleibt, schief und unsere Schlussfolgerung wäre das Gegenteil der richtigen.