Ich fragte, warum es einen Unterschied zwischen dem Durchschnitt der maximal 100 Ziehungen aus einer zufälligen Normalverteilung und dem 98. Perzentil der Normalverteilung gibt. Die Antwort, die ich von Rob Hyndman erhielt, war größtenteils akzeptabel, aber technisch zu dicht, um sie ohne Überarbeitung zu akzeptieren. Ich habe mich gefragt, ob es möglich ist, eine Antwort zu geben, die in intuitiv verständlicher Klartext erklärt, warum diese beiden Werte nicht gleich sind.
Letztendlich mag meine Antwort unbefriedigend zirkulär sein; Konzeptionell ist der Grund, warum max (rnorm (100)) tendenziell höher als qnorm (.98) ist, kurz gesagt, weil im Durchschnitt die höchste von 100 zufälligen normalverteilten Punktzahlen gelegentlich ihren erwarteten Wert überschreitet. Diese Verzerrung ist jedoch nicht symmetrisch, da es unwahrscheinlich ist, dass niedrige Punktzahlen die höchsten der 100 Punkte sind, wenn sie gezogen werden. Jede unabhängige Ziehung ist eine neue Chance, den erwarteten Wert zu überschreiten oder ignoriert zu werden, da der erhaltene Wert nicht das Maximum der 100 gezogenen Werte ist. Für eine visuelle Demonstration vergleichen Sie das Histogramm der maximal 20 Werte mit dem Histogramm der maximal 100 Werte. Der Unterschied im Versatz, insbesondere in den Schwänzen, ist stark.
Ich kam indirekt zu dieser Antwort, während ich ein verwandtes Problem / eine verwandte Frage durcharbeitete, die ich in den Kommentaren gestellt hatte. Insbesondere wenn ich feststellen würde, dass die Testergebnisse einer Person im 95. Perzentil liegen, würde ich erwarten, dass ihr Rang im Durchschnitt 95 beträgt, wenn ich sie in einen Raum mit 99 anderen Testteilnehmern stelle. Dies stellt sich als 95 heraus mehr oder weniger der Fall (R-Code) ...
for (i in 1:NSIM)
{
rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)
Als Erweiterung dieser Logik hatte ich ebenfalls erwartet, dass, wenn ich 100 Personen in einen Raum nahm und die Person mit der 95. höchsten Punktzahl auswählte, dann weitere 99 Personen nahmen und sie denselben Test machen ließen, dass die ausgewählte Person im Durchschnitt dies tun würde Platz 95 in der neuen Gruppe. Dies ist aber nicht der Fall (R-Code) ...
for (i in 1:NSIM)
{
testtakers <- rnorm(100)
testtakers <- testtakers[order(testtakers)]
testtakers <- testtakers[order(testtakers)]
ranked95 <- testtakers[95]
rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)
Was den ersten Fall vom zweiten unterscheidet, ist, dass im ersten Fall die Punktzahl des Individuums ihn genau auf das 95. Perzentil bringt. Im zweiten Fall kann sich herausstellen, dass ihre Punktzahl etwas höher oder niedriger als das wahre 95. Perzentil ist. Da sie möglicherweise nicht höher als 100 rangieren können, können Gruppen, die einen Rang 95-Wert erzielen, der tatsächlich beim 99. Perzentil oder höher liegt, (in Bezug auf den durchschnittlichen Rang) die Fälle nicht ausgleichen, in denen der Rang 95-Wert viel niedriger als der wahre 90. Wert ist Perzentil. Wenn Sie sich die Histogramme für die beiden in dieser Antwort angegebenen Rangvektoren ansehen, ist leicht zu erkennen, dass es an den oberen Enden eine Einschränkung des Bereichs gibt, die eine Folge dieses von mir beschriebenen Prozesses ist.