QQ-Plot-Interpretation

Betrachten Sie den folgenden Code und die folgende Ausgabe:

  par(mfrow=c(3,2))
  # generate random data from weibull distribution
  x = rweibull(20, 8, 2)
  # Quantile-Quantile Plot for different distributions
  qqPlot(x, "log-normal")
  qqPlot(x, "normal")
  qqPlot(x, "exponential", DB = TRUE)
  qqPlot(x, "cauchy")
  qqPlot(x, "weibull")
  qqPlot(x, "logistic")

Geben Sie hier die Bildbeschreibung ein

Es scheint, dass das QQ-Diagramm für log-normal fast das gleiche ist wie das QQ-Diagramm für weibull. Wie können wir sie unterscheiden? Wenn sich die Punkte innerhalb des durch die beiden äußeren schwarzen Linien definierten Bereichs befinden, bedeutet dies, dass sie der angegebenen Verteilung folgen?

r data-visualization interpretation qq-plot

— Proton
quelle

Ich glaube , Sie sind mit dem Auto - Paket, nicht wahr? In diesem Fall sollten Sie die Anweisung library(car)in Ihren Code aufnehmen, damit die Benutzer leichter folgen können. Im Allgemeinen möchten Sie möglicherweise auch den Startwert festlegen (z. B. set.seed(1)), um das Beispiel reproduzierbar zu machen, damit jeder genau die Datenpunkte erhalten kann, die Sie erhalten haben, obwohl dies hier wahrscheinlich nicht so wichtig ist.

— Gung - Reinstate Monica

Dies wird auf meinem Computer nicht wie geschrieben ausgeführt. Zum Beispiel möchte qqPlot aus dem Autopaket Norm für Normal und lnorm für Log-Normal. Was vermisse ich?

— Tom

@ Tom, ich habe mich über das Paket geirrt. Offensichtlich ist es das QualityTools- Paket. Darüber hinaus scheint das Beispiel von hier genommen zu werden .

— Gung - Reinstate Monica

Eine interessante Alternative ist das Diagramm von Cullen und Frey, siehe stats.stackexchange.com/questions/243973/… für ein Beispiel

— kjetil b halvorsen

Antworten:

Hier sind einige Dinge zu sagen:

Die Form der CDF für die logarithmische Normale ist der Form der CDF der Weibull ähnlich genug, um sie schwerer zu unterscheiden als das Ausmaß der Ähnlichkeit zwischen der Weibull und den anderen.
Die äußeren schwarzen Linien bilden ein Vertrauensband . Die Verwendung des Konfidenzbandes bei der Inferenz ist dieselbe wie bei jeder anderen Standardform der häufigen statistischen Inferenz. Das heißt, wenn Werte innerhalb des Bandes liegen, können wir die Nullhypothese, dass die gesetzte Verteilung die richtige ist, nicht ablehnen. Dies ist nicht dasselbe wie zu sagen, dass wir wissen , dass die gesetzte Verteilung die richtige ist. (Beachten Sie, dass dies ein großartiges Beispiel für das ist, was ich in einer anderen Antwort hier in einer Situation besprochen habe, in der die fischerische Perspektive auf Hypothesentests der Neyman-Pearson vorzuziehen wäre.)
$N$

— gung - Monica wieder einsetzen
quelle

Gibt es Möglichkeiten, Verteilungen für kleine Stichprobengrößen zu untersuchen?

— Proton

Tatsächlich scheinen die Punkte in den Vertrauensbereichen für alle Verteilungen zu liegen. Wir können die Verteilungen also nicht unterscheiden?

— Proton

Es gibt Tests für die Anpassungsgüte eines Datensatzes an eine theoretische Verteilung, aber ich neige dazu zu glauben, dass sie den qq-Plots unterlegen sind. Grundsätzlich können Sie mit nicht zwischen diesen Distributionen unterscheiden

n = 20

$n=20$ . Wenn Sie dies in Bezug auf die statistische Aussagekraft betrachten, können Sie jede der hier angegebenen falschen Nullen ablehnen

\approx 5 %

$\approx 5\%$ . Es kann Ihnen helfen, die Antwort zu lesen, die ich in Punkt 2 verlinkt habe.

— Gung - Reinstate Monica

+1 auf die kleine Stichprobengröße. Die Verwendung von 300 Proben würde helfen, die Dinge sehr zu unterscheiden. Proton: Nein, mit einer kleinen Stichprobe kann man Verteilungen nicht wirklich unterscheiden. Wie konntest du? Es ist wie der Versuch, ein Gesicht mit 20 Pixeln zu identifizieren.

— Wayne

Es scheint, dass das QQ-Diagramm für log-normal fast das gleiche ist wie das QQ-Diagramm für weibull.

Ja.

Wie können wir sie unterscheiden?

Bei dieser Stichprobengröße können Sie dies wahrscheinlich nicht.

Wenn sich die Punkte innerhalb des durch die beiden äußeren schwarzen Linien definierten Bereichs befinden, bedeutet dies, dass sie der angegebenen Verteilung folgen?

Nein. Es zeigt nur an, dass Sie die Verteilung der Daten nicht als von dieser Verteilung abweichend erkennen können. Es ist ein Mangel an Beweisen für einen Unterschied, kein Beweis für einen Mangel an Unterschieden.

Sie können fast sicher sein, dass die Daten aus einer Distribution stammen, die nicht von denen stammt, die Sie in Betracht gezogen haben (warum sollten sie genau aus einer dieser Distributionen stammen ?).

— Glen_b - Monica neu starten
quelle

Wie die Formulierung: "Es ist kein Beweis für einen Unterschied, kein Beweis für einen Mangel an Unterschied."

— Jlandercy