Asymptotische Normalität der Ordnungsstatistik von Schwerschwanzverteilungen

Hintergrund: Ich habe ein Beispiel, das ich mit einer starken Schwanzverteilung modellieren möchte. Ich habe einige Extremwerte, so dass die Verbreitung der Beobachtungen relativ groß ist. Meine Idee war es, dies mit einer verallgemeinerten Pareto-Verteilung zu modellieren, und das habe ich auch getan. Jetzt ist das 0,975-Quantil meiner empirischen Daten (ungefähr 100 Datenpunkte) niedriger als das 0,975-Quantil der verallgemeinerten Pareto-Verteilung, das ich an meine Daten angepasst habe. Nun, dachte ich, gibt es eine Möglichkeit zu überprüfen, ob dieser Unterschied Anlass zur Sorge gibt?

Wir wissen, dass die asymptotische Verteilung der Quantile wie folgt angegeben ist:

Daher hielt ich es für eine gute Idee, meine Neugier zu wecken, indem ich versuchte, die 95% -Konfidenzbänder um das 0,975-Quantil einer verallgemeinerten Pareto-Verteilung mit denselben Parametern zu zeichnen, die ich aus der Anpassung meiner Daten erhalten hatte.

Wie Sie sehen, arbeiten wir hier mit einigen Extremwerten. Und da die Streuung so enorm ist, hat die Dichtefunktion extrem kleine Werte, wodurch die Konfidenzbänder unter Verwendung der Varianz der obigen asymptotischen Normalitätsformel in die Größenordnung von : $\pm 10^{12}$

$\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2}$

Das macht also keinen Sinn. Ich habe eine Verteilung mit nur positiven Ergebnissen, und die Konfidenzintervalle enthalten negative Werte. Hier ist also etwas los. Wenn ich die Banden um das 0,5-Quantil berechne, sind die Banden nicht so groß, aber immer noch riesig.

Ich gehe weiter, um zu sehen, wie dies mit einer anderen Verteilung funktioniert, nämlich der -Verteilung. Simulieren Sie Beobachtungen aus einer -Verteilung und prüfen Sie, ob die Quantile innerhalb der Konfidenzbänder liegen. Ich mache das 10000 Mal, um die Anteile der 0,975 / 0,5-Quantile der simulierten Beobachtungen zu sehen, die innerhalb der Konfidenzbänder liegen. $\mathcal{N}(1,1)$ $n=100$ $\mathcal{N}(1,1)$

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

EDIT : Ich habe den Code korrigiert und beide Quantile ergeben ungefähr 95% Treffer mit n = 100 und mit . Wenn ich die Standardabweichung auf hochdrehe, sind nur sehr wenige Treffer innerhalb der Bänder. Die Frage steht also noch. $\sigma=1$ $\sigma=2$

EDIT2 : Ich ziehe zurück , was ich in der ersten EDIT oben behauptet habe, wie in den Kommentaren eines hilfreichen Gentleman ausgeführt. Es sieht tatsächlich so aus, als wären diese CIs gut für die Normalverteilung.

Ist diese asymptotische Normalität der Ordnungsstatistik nur ein sehr schlechtes Maß, wenn man überprüfen möchte, ob ein beobachtetes Quantil bei einer bestimmten Kandidatenverteilung wahrscheinlich ist?

Intuitiv scheint es mir, dass es einen Zusammenhang zwischen der Varianz der Verteilung (von der man glaubt, dass sie die Daten erzeugt hat, oder in meinem R-Beispiel, von dem wir wissen, dass sie die Daten erzeugt hat) und der Anzahl der Beobachtungen gibt. Wenn Sie 1000 Beobachtungen und eine enorme Varianz haben, sind diese Bänder schlecht. Wenn man 1000 Beobachtungen und eine kleine Varianz hat, wären diese Bänder vielleicht sinnvoll.

Möchte jemand das für mich klären?

— Erosennin
quelle

Ihre Bande basiert auf der Varianz der asymptotischen Normalverteilung, sollte jedoch auf der Standardabweichung der asymptotischen Normalverteilung basieren (Bande = 1,96 * sqrt ((0,975 * 0,025) / (100 * (f_norm) ^ 2)). und ähnlich für das verallgemeinerte Pareto dist'n.) Versuchen Sie das stattdessen und sehen Sie, was passiert.

— Jbowman

@jbowman, danke, dass du darauf hingewiesen hast! Ich werde es reparieren !

— Erosennin

@jbowman, der die Band kleiner macht und im Beispiel mit meinem R-Code, der tatsächlich ein paar weniger Treffer liefert. Es war auch ein weiterer Fehler, der die Berechnung falsch machte, aber das habe ich jetzt behoben. Du hast mich dazu geführt, also schätze ich das sehr! Kleinere Bands im Falle des BIP sind sehr gute Nachrichten, aber ich fürchte, sie sind immer noch so groß, dass sie nicht verwendet werden können. Ich kann immer noch keinen anderen Imbiss sehen, als dass die Beziehung Stichprobengröße und Varianz groß sein sollte, nicht nur die Stichprobengröße.

— Erosennin

Keine Bange! Ich stelle fest, dass Sie korrekt ein vor Ihrer ersten Formel haben. Wenn Sie beide Seiten wie in durch teilen , kann dies helfen. Tut mir leid, dass ich das beim ersten Mal verpasst habe. (Vielleicht haben Sie dies auch behoben, aber die relevanten Teile der Frage nicht aktualisiert.)

\sqrt{(} n)

$\sqrt(n)$ band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))

— Jbowman

Ja, ich habe nicht aufgepasst. OTOH, wenn ich Ihren Code ausführe und überall sd = 1 in sd = 2 ändere, erhalte ich beim Quantil 0,975 fast genau den gleichen Bruchteil der Treffer: 0,9683 bzw. 0,9662. Ich frage mich, ob Sie irgendwo im Lauf einen sd = 1 verpasst haben .

σ = 2

$\sigma = 2$

— Jbowman

Ich gehe davon aus, dass Ihre Ableitung dort von so etwas wie der auf dieser Seite stammt .

Ich habe eine Verteilung mit nur positiven Ergebnissen, und die Konfidenzintervalle enthalten negative Werte.

Nun, angesichts der normalen Annäherung, die Sinn macht. Nichts hindert eine normale Näherung daran, negative Werte zu erhalten, weshalb es eine schlechte Näherung für einen begrenzten Wert ist, wenn die Stichprobengröße klein und / oder die Varianz groß ist. Wenn Sie die Stichprobengröße erhöhen, werden die Intervalle kleiner, da die Stichprobengröße im Nenner des Ausdrucks für die Breite des Intervalls liegt. Die Varianz tritt durch die Dichte in das Problem ein: Für den gleichen Mittelwert hat eine höhere Varianz eine andere Dichte, die an den Rändern höher und nahe der Mitte niedriger ist. Eine niedrigere Dichte bedeutet ein breiteres Konfidenzintervall, da die Dichte im Nenner des Ausdrucks liegt.

Ein bisschen googeln hat unter anderem diese Seite gefunden , die die normale Annäherung an die Binomialverteilung verwendet, um die Konfidenzgrenzen zu konstruieren. Die Grundidee ist, dass jede Beobachtung mit der Wahrscheinlichkeit q unter das Quantil fällt , so dass die Verteilung binomial ist. Wenn die Stichprobengröße ausreichend groß ist (das ist wichtig), wird die Binomialverteilung durch eine Normalverteilung mit dem Mittelwert und der Varianz gut angenähert . Die untere Konfidenzgrenze hat also den Index , und die obere Konfidenzgrenze hat den Index . Es besteht die Möglichkeit, dass entweder oder $nq$ $nq(1-q)$ $j = nq - 1.96 \sqrt{nq(1-q)}$ $k = nq - 1.96 \sqrt{nq(1-q)}$ $k > n$ $j < 1$ wenn mit Quantilen nahe der Kante gearbeitet wird, und die Referenz, die ich gefunden habe, schweigt darüber. Ich habe mich dafür entschieden, nur das Maximum oder Minimum als relevanten Wert zu behandeln.

Beim folgenden Umschreiben Ihres Codes habe ich die Konfidenzgrenze für die empirischen Daten erstellt und getestet, ob das theoretische Quantil in diesen Bereich fällt. Das ist für mich sinnvoller, weil das Quantil des beobachteten Datensatzes die Zufallsvariable ist. Die Abdeckung für n> 1000 beträgt ~ 0,95. Für n = 100 ist es mit 0,85 schlechter, aber das ist für Quantile in der Nähe der Schwänze mit kleinen Stichprobengrößen zu erwarten.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

Um festzustellen, welche Stichprobengröße "groß genug" ist, ist größer besser. Ob eine bestimmte Stichprobe "groß genug" ist, hängt stark vom jeweiligen Problem ab und davon, wie pingelig Sie in Bezug auf Dinge wie die Abdeckung Ihrer Vertrauensgrenzen sind.

— atiretoo - Monica wieder einsetzen
quelle

Vielen Dank für Ihren Beitrag! Ich habe darauf hingewiesen, dass ich nicht sehe, wie es eine absolute "große" Stichprobe gibt, und man muss die Varianz berücksichtigen. Ich bin gespannt, wie sich das auf meine Art der Konstruktion der CIs auswirkt, aber auch allgemein. Die Ableitung finden Sie beispielsweise hier: math.mcgill.ca/~dstephens/OldCourses/556-2006/… Die von mir erstellten CIs folgen dem Beispiel in diesem Link. Sie schreiben: "Ich habe die Vertrauensgrenze für die empirischen Daten konstruiert ...", und das ist für Sie sinnvoller. Können Sie bitte etwas näher auf meine CIs eingehen?

— Erosennin

Ah ja, Sie hatten den richtigen Ableitungslink. Entschuldigung, mein fehler.

— Erosennin

OK, ich habe es erneut bearbeitet, um korrekt zu beschreiben, wie sich die Varianz der Verteilung auf die von Ihnen verwendete Näherung auswirkt, und um etwas mehr darüber zu diskutieren, was eine "große" Stichprobe bedeutet. Ihr CI konzentriert sich auf den theoretischen Wert, während sich mein CI auf den empirischen Wert konzentriert. Ich denke, um ein empirisches Quantil mit einem theoretischen zu vergleichen, sollten die Intervalle auf dem empirischen Quantil konstruiert werden. Auch die von mir verwendete Näherung macht eine "normale" Näherung weniger, da es keinen Anreiz gibt, den zentralen Grenzwertsatz zu starten.

— Atiretoo - Wiedereinstellung von Monica

Ich schätze die Mühe, vielleicht könnte meine Frage klarer sein. Ich habe bereits erkannt, wie sich die Dichte und die Probengröße auf die Varianz auswirken, das war in erster Linie mein Punkt. Aber auch hier hätte ich klarer sein können. Es ist die "asymptotische", die meiner Meinung nach durch etwas ersetzt werden sollte, das die Varianz berücksichtigt. Nun, Sie haben Ihre CIs auch auf die theoretischen Werte zentriert. n * q ist genau Ihr theoretischer Wert. Beim Aufbau Ihrer Bands haben Sie im Wesentlichen dasselbe getan wie ich, nur mit einer anderen Methode.

— Erosennin