In einem Artikel habe ich die Formel für die Standardabweichung einer Stichprobengröße
Dabei ist der durchschnittliche Bereich von Unterproben (Größe ) aus der Hauptstichprobe. Wie berechnet sich die Zahl ? Das ist die richtige Nummer? 62.534
In einem Artikel habe ich die Formel für die Standardabweichung einer Stichprobengröße
Dabei ist der durchschnittliche Bereich von Unterproben (Größe ) aus der Hauptstichprobe. Wie berechnet sich die Zahl ? Das ist die richtige Nummer? 62.534
Antworten:
In einer Stichprobe von unabhängigen Werten aus einer Verteilung mit pdf ist das pdf der gemeinsamen Verteilung der Extreme und proportional zu
(Die Proportionalitätskonstante ist der Kehrwert des Multinomialkoeffizienten . Dieses gemeinsame PDF drückt intuitiv die Möglichkeit aus, den kleinsten Wert im Bereich[x[1],x[1]+dx[1]), den größten Wert im Bereich[x[n],x[n], zu finden.+dx[n])und die mittleren Werte zwischen ihnen innerhalb des Bereichs [ x [ 1 ] + d x [ 1 ] , x [ n ] ) . Wenn F kontinuierlich ist, können wir diesen mittleren Bereich durch Ersetzen ( x [ 1 ] , x [ n ] ] , wobei nur eine „unendlich“ Menge an Wahrscheinlichkeit zu vernachlässigen. Die zugeordneten Wahrscheinlichkeiten, in erster Ordnung in den Differentialen, sind f ( x [ 1 ] and respectively, now making it obvious where the formula comes from.)
Nimmt man die Erwartung des Bereichs ergibt sich für jede Normalverteilung mit Standardabweichung σ und n = 6 2.53441 σ . Der erwartete Bereich als Vielfaches von σ hängt von der Stichprobengröße n ab :
Diese Werte wurden durch numerische Integration von über{(x,y)≤R2| x≤y}, wobeiFauf die Standard-Normal-CDF eingestellt ist und durch die Standardabweichung vonF(die nur1 ist)dividiert wird.
Eine ähnliche multiplikative Beziehung zwischen dem erwarteten Bereich und der Standardabweichung gilt für jede Familie von Verteilungen auf Ortsskala, da dies eine Eigenschaft der Form der Verteilung allein ist. Zum Beispiel ist hier ein vergleichbares Diagramm für gleichmäßige Verteilungen:
und Exponentialverteilungen:
Die Werte in den beiden vorhergehenden Darstellungen wurden durch exakte - nicht numerische - Integration erhalten, was aufgrund der jeweils relativ einfachen algebraischen Formen von und F möglich ist. Für die Gleichverteilungen sind sie gleich n - 1 and for the exponential distributions they are where is Euler's constant and is the "polygamma" function, the logarithmic derivative of Euler's Gamma function.
Obwohl sie sich unterscheiden (weil diese Verteilungen einen weiten Bereich von Formen aufweisen), stimmen die drei ungefähr um überein , was zeigt, dass der Multiplikator 2,5 nicht stark von der Form abhängt und daher als eine allumfassende, robuste Bewertung der Standardabweichung dienen kann wenn Bereiche kleiner Unterproben bekannt sind. (Tatsächlich hat die sehr schwerfällige Student t- Verteilung mit drei Freiheitsgraden immer noch einen Multiplikator um 2,3 für n = 6 , nicht weit von 2,5 entfernt .)
That approximation is very close to the true sample standard deviation. I wrote a quick R script to illustrate it:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
which yields:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Now I am not sure (yet) why this works but it at least looks like (at face value) that the approximation is a decent one.
Edit: See @Whuber's exceptional comment (above) on why this works
mean(R)/2.474
equal to , very close to sd(x)
.