PP-Diagramme vs. QQ-Diagramme


39

Was ist der Unterschied zwischen Wahrscheinlichkeitsdiagrammen, PP-Diagrammen und QQ-Diagrammen, wenn versucht wird, eine angepasste Verteilung auf Daten zu analysieren?


4
Es scheint, dass Wikipedia Ihnen dabei helfen kann: Wahrscheinlichkeitsdiagramm . QQ-Plot , PP-Plot . Wenn Sie eine genauere Frage haben, klären Sie diese bitte!
vector07

Vielen Dank, ich glaube, ich habe PP-Plot und Wahrscheinlichkeitsplot verwechselt!
Kay

Antworten:


41

Wie @ vector07 bemerkt , ist Wahrscheinlichkeitsdiagramm die abstraktere Kategorie, zu der pp-Diagramme und qq-Diagramme gehören. Daher werde ich die Unterscheidung zwischen den beiden letzteren erörtern. Der beste Weg, um die Unterschiede zu verstehen, besteht darin, darüber nachzudenken, wie sie aufgebaut sind, und zu verstehen, dass Sie den Unterschied zwischen den Quantilen einer Verteilung und dem Anteil der Verteilung erkennen müssen, den Sie durchlaufen haben, wenn Sie ein bestimmtes Quantil erreicht haben. Sie können die Beziehung zwischen diesen anzeigen, indem Sie die kumulative Verteilungsfunktion (CDF) einer Verteilung zeichnen. Betrachten Sie zum Beispiel die Standardnormalverteilung:

Bildbeschreibung hier eingeben

Wir sehen, dass ungefähr 68% der y-Achse (Bereich zwischen roten Linien) 1/3 der x-Achse (Bereich zwischen blauen Linien) entspricht. Das heißt, wenn wir den Anteil der Verteilung verwenden, den wir durchlaufen haben, um die Übereinstimmung zwischen zwei Verteilungen zu bewerten (dh wir verwenden einen pp-Plot), erhalten wir viel Auflösung in der Mitte der Verteilungen, aber weniger bei die Schwänze. Wenn wir andererseits die Quantile verwenden, um die Übereinstimmung zwischen zwei Verteilungen zu bewerten (dh wir verwenden einen qq-Plot), erhalten wir eine sehr gute Auflösung an den Schwänzen, jedoch weniger in der Mitte. (Da sich Datenanalysten in der Regel mehr Gedanken über die Schwänze einer Verteilung machen, die sich beispielsweise stärker auf die Inferenz auswirken, sind qq-Plots viel häufiger als pp-Plots.)

Um diese Fakten in Aktion zu sehen, gehe ich durch die Konstruktion eines PP-Plots und eines QQ-Plots. (Ich gehe hier auch verbal / langsamer durch die Konstruktion eines QQ-Plots : QQ-Plot stimmt nicht mit Histogramm überein .) Ich weiß nicht, ob Sie R verwenden, aber es wird hoffentlich selbsterklärend sein:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

Bildbeschreibung hier eingeben

Leider sind diese Diagramme nicht sehr unterschiedlich, da es nur wenige Daten gibt und wir eine echte Normalverteilung mit der korrekten theoretischen Verteilung vergleichen, sodass weder in der Mitte noch in den Enden der Verteilung etwas Besonderes zu sehen ist. Um diese Unterschiede besser zu demonstrieren, zeichne ich eine (fettschwanzige) t-Verteilung mit 4 Freiheitsgraden und eine bimodale Verteilung unten. Die fetten Schwänze sind im qq-Plot viel ausgeprägter, während die Bimodalität im pp-Plot ausgeprägter ist.

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben


14
@AleksandrH Wir freuen uns sehr über Ihr Interesse an Studenten. Ihre implizite Annahme, dass diese Website nur für Studenten gedacht ist, die noch keine Erfahrung mit Statistik haben, ist jedoch falsch. und Ihre Andeutung, dass "wortreiche Antworten" für Studenten ungeeignet sind, widerspricht einfach nicht der Realität, wie viele "wortreiche" Antworten auf dieser Website bestätigen. Eine konstruktivere Möglichkeit, Ihre Beschwerde auszudrücken, ist das Beispiel: Zeigen Sie uns, wie wir unsere Antworten verbessern können, und regen Sie uns an, Sie nachzubilden, indem Sie hier eine Antwort veröffentlichen, die Ihren Standards für die Berücksichtigung der Bedürfnisse neuer Studenten entspricht.
whuber

12

Hier ist eine Definition von v8doc.sas.com :

Ein PP-Plot vergleicht die empirische kumulative Verteilungsfunktion eines Datensatzes mit einer bestimmten theoretischen kumulativen Verteilungsfunktion F (·). Ein QQ-Diagramm vergleicht die Quantile einer Datenverteilung mit den Quantilen einer standardisierten theoretischen Verteilung aus einer bestimmten Verteilungsfamilie.

Im Text erwähnen sie auch:

  • Unterschiede in der Art und Weise, wie PP-Diagramme und QQ-Diagramme erstellt und interpretiert werden.
  • Vorteile der Verwendung der einen oder anderen im Hinblick auf den Vergleich von empirischen und theoretischen Verteilungen.

Referenz :

SAS Institute Inc., SAS OnlineDoc®, Version 8, Cary, NC: SAS Institute Inc., 1999

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.