Was ist der Unterschied zwischen Wahrscheinlichkeitsdiagrammen, PP-Diagrammen und QQ-Diagrammen, wenn versucht wird, eine angepasste Verteilung auf Daten zu analysieren?
Was ist der Unterschied zwischen Wahrscheinlichkeitsdiagrammen, PP-Diagrammen und QQ-Diagrammen, wenn versucht wird, eine angepasste Verteilung auf Daten zu analysieren?
Antworten:
Wie @ vector07 bemerkt , ist Wahrscheinlichkeitsdiagramm die abstraktere Kategorie, zu der pp-Diagramme und qq-Diagramme gehören. Daher werde ich die Unterscheidung zwischen den beiden letzteren erörtern. Der beste Weg, um die Unterschiede zu verstehen, besteht darin, darüber nachzudenken, wie sie aufgebaut sind, und zu verstehen, dass Sie den Unterschied zwischen den Quantilen einer Verteilung und dem Anteil der Verteilung erkennen müssen, den Sie durchlaufen haben, wenn Sie ein bestimmtes Quantil erreicht haben. Sie können die Beziehung zwischen diesen anzeigen, indem Sie die kumulative Verteilungsfunktion (CDF) einer Verteilung zeichnen. Betrachten Sie zum Beispiel die Standardnormalverteilung:
Wir sehen, dass ungefähr 68% der y-Achse (Bereich zwischen roten Linien) 1/3 der x-Achse (Bereich zwischen blauen Linien) entspricht. Das heißt, wenn wir den Anteil der Verteilung verwenden, den wir durchlaufen haben, um die Übereinstimmung zwischen zwei Verteilungen zu bewerten (dh wir verwenden einen pp-Plot), erhalten wir viel Auflösung in der Mitte der Verteilungen, aber weniger bei die Schwänze. Wenn wir andererseits die Quantile verwenden, um die Übereinstimmung zwischen zwei Verteilungen zu bewerten (dh wir verwenden einen qq-Plot), erhalten wir eine sehr gute Auflösung an den Schwänzen, jedoch weniger in der Mitte. (Da sich Datenanalysten in der Regel mehr Gedanken über die Schwänze einer Verteilung machen, die sich beispielsweise stärker auf die Inferenz auswirken, sind qq-Plots viel häufiger als pp-Plots.)
Um diese Fakten in Aktion zu sehen, gehe ich durch die Konstruktion eines PP-Plots und eines QQ-Plots. (Ich gehe hier auch verbal / langsamer durch die Konstruktion eines QQ-Plots : QQ-Plot stimmt nicht mit Histogramm überein .) Ich weiß nicht, ob Sie R verwenden, aber es wird hoffentlich selbsterklärend sein:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Leider sind diese Diagramme nicht sehr unterschiedlich, da es nur wenige Daten gibt und wir eine echte Normalverteilung mit der korrekten theoretischen Verteilung vergleichen, sodass weder in der Mitte noch in den Enden der Verteilung etwas Besonderes zu sehen ist. Um diese Unterschiede besser zu demonstrieren, zeichne ich eine (fettschwanzige) t-Verteilung mit 4 Freiheitsgraden und eine bimodale Verteilung unten. Die fetten Schwänze sind im qq-Plot viel ausgeprägter, während die Bimodalität im pp-Plot ausgeprägter ist.
Hier ist eine Definition von v8doc.sas.com :
Ein PP-Plot vergleicht die empirische kumulative Verteilungsfunktion eines Datensatzes mit einer bestimmten theoretischen kumulativen Verteilungsfunktion F (·). Ein QQ-Diagramm vergleicht die Quantile einer Datenverteilung mit den Quantilen einer standardisierten theoretischen Verteilung aus einer bestimmten Verteilungsfamilie.
Im Text erwähnen sie auch:
Referenz :
SAS Institute Inc., SAS OnlineDoc®, Version 8, Cary, NC: SAS Institute Inc., 1999