Vorteile der Verwendung von QQ-Plots gegenüber Histogrammen


22

In diesem Kommentar schrieb Nick Cox:

Klasseneinteilung ist eine alte Methode. Während Histogramme nützlich sein können, macht es eine moderne Statistiksoftware einfach und ratsam, Verteilungen an die Rohdaten anzupassen. Binning wirft nur Details weg, die entscheidend dafür sind, welche Verteilungen plausibel sind.

Der Kontext dieses Kommentars schlägt die Verwendung von QQ-Plots als alternatives Mittel zur Bewertung der Anpassung vor. Die Aussage klingt sehr plausibel, aber ich würde gerne eine verlässliche Referenz kennen, die diese Aussage stützt. Gibt es ein Papier, das diese Tatsache gründlicher untersucht, abgesehen von einem einfachen „nun, das klingt offensichtlich“? Gibt es tatsächlich systematische Vergleiche von Ergebnissen oder Ähnlichem?

Ich möchte auch sehen, inwieweit dieser Vorteil von QQ-Plots gegenüber Histogrammen auf andere Anwendungen als die Modellanpassung ausgedehnt werden kann. Die Antworten auf diese Frage stimmen darin überein, dass "ein QQ-Plot […] Ihnen nur sagt, dass" etwas nicht stimmt "". Ich denke darüber nach, sie als Werkzeug zur Identifizierung der Struktur in beobachteten Daten im Vergleich zu einem Nullmodell zu verwenden und mich zu fragen, ob es etablierte Verfahren gibt, um QQ-Diagramme (oder deren zugrunde liegende Daten) nicht nur zu erkennen, sondern auch nicht zufällig zu beschreiben Struktur in den beobachteten Daten. Referenzen, die diese Richtung einschließen, wären daher besonders nützlich.


4
stats.stackexchange.com/questions/51718/… beantwortet bereits die Hälfte der Frage, warum Histogramme am besten vermieden werden, unabhängig davon, durch was Sie sie ersetzen.
Gala

Antworten:


25

Das kanonische Papier hier war

Wilk, MB und R. Gnanadesikan. 1968. Wahrscheinlichkeitsplotmethoden für die Analyse von Daten. Biometrika 55: 1-17

und es zahlt sich immer noch beim Lesen aus.

Eine anschauliche Behandlung mit vielen guten Beispielen wurde von gegeben

Cleveland, WS 1993. Visualisierung von Daten. Summit, New Jersey: Hobart Press.

und es ist erwähnenswert, die einleitender

Cleveland, WS 1994. Die Elemente der grafischen Darstellung von Daten. Summit, New Jersey: Hobart Press.

Andere Texte, die eine angemessene Exposition gegenüber diesem Ansatz enthalten, umfassen

Davison, AC 2003. Statistische Modelle. Cambridge: Cambridge University Press.

Rice, JA 2007. Mathematische Statistik und Datenanalyse. Belmont, Kalifornien: Duxbury.

Davon abgesehen weiß ich nichts, wonach Sie fragen. Wenn Sie erst einmal den Punkt der Quantil-Quantil-Diagramme kennengelernt haben, scheint es weder interessant noch nützlich zu sein, Histogramme als zweitklassige Alternative zu zeigen, wie das Schießen von Fischen in einem Fass.

Aber ich würde so zusammenfassen:

  1. Binning unterdrückt Details, und die Details sind oft wichtig. Dies kann nicht nur für genau das gelten, was in den Schwänzen vor sich geht, sondern auch für das, was in der Mitte vor sich geht. Beispielsweise kann Granularität oder Multimodalität ebenso wichtig sein wie Schiefe oder Schwanzgewicht.

  2. Das Binning erfordert Entscheidungen über den Binursprung und die Binbreite, die das Erscheinungsbild von Histogrammen stark beeinflussen können. Daher ist es schwer zu erkennen, was real ist und was ein Nebeneffekt der Auswahl ist. Wenn Ihre Software diese Entscheidungen für Sie trifft, bleiben die Probleme bestehen. (Zum Beispiel werden Standardfächer oft so gewählt, dass Sie nicht "zu viele Fächer" verwenden, dh mit dem Motiv, ein wenig zu glätten.)

  3. Das grafische und psychologische Problem des Vergleichs zweier Histogramme ist schwieriger als die Beurteilung der Anpassung einer Punktmenge an eine gerade Linie.

-Mittelwert) / SD. Wenn die Quantile nur die Ordnungsstatistik sind, müssen Sie lediglich die Transformation anwenden, da z. B. der Logarithmus des Maximums identisch mit dem Maximum der Logarithmen ist und so weiter. (Trivialerweise kehrt die Hin- und Herbewegung die Reihenfolge um.) Auch wenn Sie ausgewählte Quantile plotten, die auf Statistiken mit zwei Ordnungen basieren, werden sie normalerweise nur zwischen zwei ursprünglichen Datenwerten interpoliert, und der Effekt der Interpolation ist trivial. Im Gegensatz dazu erfordern Histogramme in logarithmischen oder anderen transformierten Maßstäben eine neue Entscheidung über den Ursprung und die Breite des Behälters, die nicht besonders schwierig, aber nicht trivial ist. Ähnliches gilt für die Dichteschätzung, um die Verteilung zusammenzufassen.


8

Siehe die Arbeit von William S. Cleveland.

Das Visualisieren von Daten ist wahrscheinlich die beste Quelle, aber auch seine Webseite , insbesondere die Bibliographie und die Seite zum Visualisieren von Daten (einschließlich S + -Code, der für die Verwendung in angepasst werden kann R).

Cleveland hat viele Gründe, warum QQ-Diagramme gut sind und warum Histogramme nicht so gut sind.



7

Wenn Sie erst einmal gelernt haben, wie man sie verwendet, können Sie in QQ-Diagrammen die Neigung, den Schweregrad, die allgemeine Form, die Spitzen usw. erkennen. Dieselben Arten von Merkmalen verwenden die Benutzer in der Regel Histogramme, um sie zu bewerten.

Kernel-Dichteschätzungen oder Log-Spline-Dichteschätzungen können einige Probleme mit Histogrammen vermeiden, auf die Gala in Kommentaren hingewiesen hat.

Betrachten Sie dieses Beispiel von diesem Link:

Wenn Sie jedoch kein großes Glück haben, kann eine unerwartete Diskriminierung manchmal mit einem Histogramm und sogar mit den Schätzungen für die glatte Dichte übersehen werden (weil sie natürlich glatt sind), ist jedoch in QQ-Diagrammen häufig offensichtlich. Glatte Dichteschätzungen können - sofern sie nicht speziell behandelt werden - auch Probleme mit begrenzten Variablen haben.

Histogramme und Dichteschätzungen beruhen beide auf einer Annäherung an die Daten, die nützlich sein kann, aber auch Artefakte oder etwas falsche Darstellungen hervorrufen kann.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.