Wie kann ich die Standardabweichung der Standardabweichung der Stichprobe von einer Normalverteilung ermitteln?


11

Vergib mir, wenn ich etwas ziemlich Offensichtliches verpasst habe.

Ich bin Physiker mit einer (Histogramm-) Verteilung, die sich um einen Mittelwert dreht, der sich einer Normalverteilung annähert. Der für mich wichtige Wert ist die Standardabweichung dieser Gaußschen Zufallsvariablen. Wie würde ich versuchen, den Fehler in der Standardabweichung der Stichprobe zu finden? Ich habe das Gefühl, dass es etwas mit dem Fehler auf jedem Bin im ursprünglichen Histogramm zu tun hat.


Ein Hinweis wird unter stats.stackexchange.com/questions/26924 bereitgestellt . Im Allgemeinen kann der Abtastfehler einer Varianz in Bezug auf die ersten vier Momente der Verteilung berechnet werden, und daher kann der Abtastfehler der SD zumindest aus diesen Momenten geschätzt werden.
whuber

Antworten:


12

Es hört sich so an, als würden Sie nach einer Berechnung der Standardabweichung der Standardabweichung der Stichprobe fragen. Das heißt, Sie fragen nach , woSD(s)=var(s)

s=1n1i=1n(XiX¯),

und ¯ X ist die Probe Mittelwert.X1,...,XnN(μ,σ2)X¯

Erstens wissen wir aus den grundlegenden Eigenschaften der Varianz, dass

var(s)=E(s2)E(s)2

Da die Stichprobenvarianz unverzerrt ist, wissen wir, dass . In Warum ist die Standardabweichung der Stichprobe ein voreingenommener Schätzer von σ ? , E ( s ) wird berechnet, woraus wir schließen könnenE(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

deshalb

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2

Guter Punkt. Ich habe eine Schätzung der Varianz von s ^ 2 erhalten. Die Quadratwurzel ergibt eine Schätzung der Standardabweichung von s ^ 2. Aber Sie haben die eigentliche Frage beantwortet, die darin bestand, die Standardabweichung von s zu erhalten. Ich würde annehmen, dass aus praktischen Gründen auch Sie σ durch s ersetzen würden, um eine Schätzung unter Verwendung der Formel zu erhalten.
Michael R. Chernick

Ja, das stimmt, Sie können durch s ersetzen, und diese Näherung funktioniert auch bei bescheidenen Stichprobengrößen gut - ich habe einige Tests mit n = 20 durchgeführt . σsn=20
Makro

11

Die Größe hat eine Chi-Quadrat-Verteilung mit n - 1 Freiheitsgraden, wenn die Proben unabhängig und mit derselben Normalverteilung verteilt sind. Diese Größe kann verwendet werden, um Konfidenzintervalle für die zu erhalten Varianz der Normalen und ihrer Standardabweichung. Wenn Sie die Rohwerte und nicht nur den zentralen Wert der Behälter haben, können Sie s 2 berechnen . X=(n1)s2/σ2n1s2

Es ist bekannt, dass wenn eine Chi-Quadrat-Verteilung mit n - 1 Freiheitsgraden hat, seine Varianz 2 ( n - 1 ) beträgt . Wenn wir dies und die Tatsache wissen, dass V a r ( c X ) = c 2 V a r ( X ) ist, erhalten wir, dass s 2 eine Varianz von 2 ( n - 1 ) σ 4 hatXn12(n1)Var(cX)=c2Var(X)s2 Obwohl σ 4 unbekannt ist, können Sie es mit s 4 approximierenund haben eine ungefähre Vorstellung davon, wie die Varianz von s 2 ist.

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2

Ich wollte dies am Anfang posten, aber das Problem, wie ich es hier sehe, ist, dass unbekannt ist. Angesichts dieser Tatsache weiß ich nicht, ob es gültig ist, s 4σ 4 zu approximieren, wenn wir nicht einmal die Stichprobengröße kennen. Ich erinnere mich, dass man zeigen kann, dass der vierte Moment ernsthafte Probleme mit Ausreißern haben kann. σ2s4σ4
Néstor

ist ein konsistenter Schätzer von σ 4 (vorausgesetzt, σ 4 existiert), richtig @Nesp? Ich denke, das ist normalerweise gemeint, wenn Leute "ungefähre" oder "grobe Idee" sagten. s4σ4σ4
Makro

2
Vielleicht ist der Schlafmangel, aber ist das nicht wie Zirkelschluss?
Néstor

Wir gingen von Anfang an davon aus, dass die Daten aus einer Normalverteilung stammen, sodass es kein Ausreißerproblem gibt. Ich meinte grob, wie Macro es vorschlägt. Ich stimme zu, dass die Stichprobengröße beeinflusst, wie nahe s ^ 4 an σ ^ 4 liegt. Aber die Sorge um Ausreißer ist Nesp. Wenn Sie mich dafür herabgestimmt haben, finde ich das sehr unfair. Was ich vorgestellt habe, war die Standardmethode zum Schätzen der Standardabweichung für s ^ 2, wenn Daten NORMAL VERTEILT werden.
Michael R. Chernick

@Nesp, Michael has given a consistent estimator of the variance of the sample standard deviation from a normally distributed sample - for large samples it will do well - simulate it and find out. I'm not sure why you think this is circular reasoning.
Macro

7

There are several ways of quantifying the error of the standard deviation in the normal case. I am going to present the profile likelihood of σ which can be used for approximating confidence intervals.

Let x=(x1,...,xn) be a sample from a Normal(μ,σ). The corresponding likelihood function is given by

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

Then, the Maximum Likelihood Estimators are given by (μ^,σ^)=(x¯,s), where s=1nj=1n(xjx¯)2. Given that you are interested on quantifying the error on σ, you can then calculate the normalised profile likelihood of this parameter as follows.

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Note that Rp:R+(0,1]. An interval of level 0.147 has an approximate confidence of 0.95. Next I attach an R code that can be used for calculating these intervals. You can modify it accordingly in your context (or if you post the data I can include these changes).

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

An advantage of this sort of intervals is that they are invariant under transformations. In this case if you calculate an interval for σ, I=(L,U), then the corresponding interval for σ2 is simply I=(L2,U2).


I think he really just wanted the standard deviation of s.
Michael R. Chernick
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.