QQ-Plot stimmt nicht mit Histogramm überein


12

Ich habe ein Histogramm, eine Kerneldichte und eine angepasste Normalverteilung der Finanzprotokollrenditen, die in Verluste umgewandelt werden (Vorzeichen werden geändert), und ein normales QQ-Diagramm dieser Daten:

http://tinypic.com/r/34ocwvr/6

Das QQ-Diagramm zeigt deutlich, dass die Schwänze nicht richtig montiert sind. Wenn ich mir aber das Histogramm und die angepasste Normalverteilung (blau) anschaue, werden auch die Werte um 0.0 nicht richtig angepasst. Das QQ-Diagramm zeigt also, dass nur die Schwänze nicht richtig eingepasst sind, aber eindeutig die gesamte Verteilung nicht richtig eingepasst ist. Warum wird dies im QQ-Plot nicht angezeigt?


10
Die blaue Kurve links entspricht einer hypothetischen "Best-Fit" -Linie rechts. Die Linie auf der rechten Seite ist nicht die Linie, die am besten zu den Mittelwerten in der Verteilung passt . Wenn Sie eine "Glockenkurve" an die mittleren zwei Drittel oder so des Histogramms anstatt an das Ganze anpassen würden, würde diese Kurve dem Gipfel und den steil abfallenden Seiten nahe kommen, aber dann wäre es weit zu tief an Schultern und Schwänzen. Genau das zeigt auch die Linie im qq-Diagramm: Diese Diagramme stimmen perfekt überein. es sind die Passungen , die sich unterscheiden.
whuber

Antworten:


11

+1 an @NickSabbe, denn 'die Handlung sagt dir nur, dass "etwas nicht stimmt"', was oft der beste Weg ist, eine qq-Handlung zu verwenden (da es schwierig sein kann, zu verstehen, wie man sie interpretiert). Es ist jedoch möglich zu lernen, wie man einen qq-Plot interpretiert, indem man darüber nachdenkt, wie man einen erstellt.

Sie sortieren zunächst Ihre Daten und zählen dann vom Mindestwert aufwärts, wobei Sie jeweils einen gleichen Prozentsatz annehmen. Wenn Sie zum Beispiel 20 Datenpunkte hatten, als Sie den ersten gezählt haben (das Minimum), würden Sie sich sagen: "Ich habe 5% meiner Daten gezählt." Sie würden diese Prozedur befolgen, bis Sie am Ende angelangt sind. An diesem Punkt wären Sie zu 100% durch Ihre Daten gegangen. Diese Prozentwerte können dann mit denselben Prozentwerten aus der entsprechenden theoretischen Normalen (dh der Normalen mit demselben Mittelwert und derselben SD) verglichen werden.

Wenn Sie diese zeichnen, werden Sie feststellen, dass Sie Probleme mit dem letzten Wert haben, nämlich 100%, denn wenn Sie 100% einer theoretischen Normalen durchlaufen haben, sind Sie im Unendlichen. Dieses Problem wird behoben, indem an jedem Punkt in Ihren Daten eine kleine Konstante zum Nenner hinzugefügt wird, bevor die Prozentsätze berechnet werden. Ein typischer Wert wäre die Addition von 1 zum Nenner. Sie würden beispielsweise Ihren ersten (von 20) Datenpunkt 1 / (20 + 1) = 5% und Ihren letzten 20 / (20 + 1) = 95% nennen. Nun , wenn Sie diese Punkte gegen einen entsprechenden theoretischen Normal plotten, haben Sie einen pp-Plot(zum Zeichnen von Wahrscheinlichkeiten gegen Wahrscheinlichkeiten). Ein solches Diagramm würde höchstwahrscheinlich die Abweichungen zwischen Ihrer Verteilung und einer Normalen in der Mitte der Verteilung anzeigen. Dies liegt daran, dass 68% einer Normalverteilung innerhalb von +/- 1 SD liegen, sodass PP-Plots dort eine ausgezeichnete Auflösung und an anderer Stelle eine schlechte Auflösung aufweisen. (Mehr zu diesem Punkt kann es hilfreich sein, meine Antwort hier zu lesen: PP-Diagramme vs. QQ-Diagramme .)

Oft sind wir am meisten besorgt darüber, was in den Enden unserer Distribution passiert. Um eine bessere Auflösung zu bekommen dort (und damit schlechter Auflösung in der Mitte), können wir ein Konstrukt qq-Plot statt. Wir tun dies, indem wir unsere Sätze von Wahrscheinlichkeiten nehmen und sie durch die Umkehrung der CDF der Normalverteilung leiten (dies ist wie das Lesen der Z-Tabelle auf der Rückseite eines Statistikbuchs rückwärts - Sie lesen eine Wahrscheinlichkeit ein und lesen eine Z- Ergebnis). Das Ergebnis dieser Operation sind zwei Mengen von Quantilen , die auf ähnliche Weise gegeneinander geplottet werden können.

@whuber ist richtig, dass die Referenzlinie anschließend (normalerweise) gezeichnet wird, indem die am besten passende Linie durch die mittleren 50% der Punkte (dh vom ersten Quartil bis zum dritten) ermittelt wird. Dies geschieht, um die Darstellung besser lesbar zu machen. Mit dieser Linie können Sie den Plot so interpretieren, dass er Ihnen zeigt, ob die Quantile Ihrer Verteilung von einer echten Normalen progressiv abweichen, wenn Sie sich in die Schwänze bewegen. (Beachten Sie, dass die Position der weiter vom Zentrum entfernten Punkte nicht wirklich unabhängig von der Position der näheren Punkte ist. Die Tatsache, dass in Ihrem spezifischen Histogramm die Schwänze nach dem Unterschied der Schultern zusammenzukommen scheinen, bedeutet also nicht, dass die Quantile unterschiedlich sind sind jetzt gleich wieder.)

x-3y-.2Daten in diesem Ende Ihrer Verteilung als in einem theoretischen Normal. Mit anderen Worten:

  • Wenn sich beide Schwänze gegen den Uhrzeigersinn drehen, haben Sie schwere Schwänze ( Leptokurtose ).
  • Wenn sich beide Schwänze im Uhrzeigersinn drehen, haben Sie leichte Schwänze (Platykurtose).
  • Wenn sich Ihr rechter Schwanz gegen den Uhrzeigersinn und Ihr linker Schwanz im Uhrzeigersinn dreht, haben Sie einen rechten Versatz
  • Wenn sich Ihr linker Schwanz gegen den Uhrzeigersinn und Ihr rechter Schwanz im Uhrzeigersinn dreht, haben Sie einen linken Versatz

Ich finde solche Rubriken weniger als zufriedenstellend. Zum einen haben sie keinen direkten Bezug zu den Prinzipien der Handlung: Sie müssen separat gespeichert werden (und können durch ein fehlerhaftes Gedächtnis völlig verwirrt werden). Eine andere (in diesem Fall) ist, dass es zu kompliziert ist, um zuverlässig nützlich zu sein. Ein weiteres Problem besteht darin, dass eine fehlende Standardisierung beim Zeichnen solcher Diagramme dazu führen kann, dass diese Methode falsch ist, wenn sie auf ein qq-Diagramm angewendet wird, das mit einem anderen Verfahren erstellt wurde. Aber qq-Diagramme sind leicht zu interpretieren: siehe meinen Erklärungsversuch auf halber Strecke quantdec.com/envstats/notes/class_03/probability.htm .
whuber

5

Einfach ausgedrückt: Das QQ-Diagramm zeigt die Rangfolge in der empirischen Verteilung im Vergleich zur erwarteten Verteilung. In Ihrem Fall (und das ist tatsächlich ziemlich oft der Fall; immer mit symmetrischen Verteilungen) sind die Ränge in der Nähe der Mitte zwischen erwartet und empirisch ähnlich, daher liegt der QQ-Plot in der Nähe der Linie dort.

Es ist nicht so einfach, die "seltsamen" Beobachtungen anhand ihrer Position in einem QQ-Diagramm zu identifizieren: Das Diagramm sagt Ihnen nur, dass "etwas nicht stimmt", und wenn Sie mehr über die Daten / Verteilungen wissen, können Sie es herausfinden wo die Probleme sind.


1
Ich würde die gegenteilige Schlussfolgerung beibehalten, Nick: Der qq-Plot macht es viel einfacher, "seltsame" Ergebnisse im Vergleich zum Datenbestand zu identifizieren und zu bewerten, während das Histogramm dazu neigt, viel zu verschleiern, was der qq-Plot zeigt. Hierbei geht es nicht darum, ob sich der qq-Plot in der Nähe einer Linie befindet: Es geht darum, welche Linie von der Software als Referenz für den Plot ausgewählt wurde! (Ich vermute R, die Anpassung basiert auf einigen moderaten Perzentilen, wie z. B. Quartilen. Offensichtlich basierte die Anpassung an das Histogramm auf passenden Momenten.)
whuber

1
@whuber: Persönlich sehe ich gerne beide, wenn möglich (meistens, weil ich Histogramme leichter "lese" als QQ-Diagramme). Aber du hast recht und ich stehe korrigiert da.
Nick Sabbe

Und Sie sind ganz richtig, dass die beiden Techniken komplementär sind. Beispielsweise ist die Bimodalität in einem Histogramm in der Regel leichter zu erkennen (und zu quantifizieren) als in einem qq-Diagramm. Ich glaube, dass mit der Praxis sowohl Histogramme als auch QQ-Diagramme einfach zu lesen sind. Das Erlernen von QQ - Diagrammen kann etwas länger dauern, nur weil sie keine Standarddarstellungsform haben: Sie müssen immer überprüfen, welche Achse der Wert und welches Quantil ist, und manchmal werden die Quantile in "äquivalente Werte" umgewandelt (anstelle von standardisiert werden).
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.