Intuitive Erklärung zur Division durch bei der Berechnung der Standardabweichung?


136

Ich wurde heute in der Klasse gefragt, warum Sie bei der Berechnung der Standardabweichung die Summe der quadratischen Fehler durch anstelle von dividieren .nn1n

Ich sagte, ich werde es nicht im Unterricht beantworten (da ich mich nicht mit unvoreingenommenen Schätzern befassen wollte), aber später fragte ich mich - gibt es eine intuitive Erklärung dafür ?!


29
Ich möchte diesen Zinger aus dem Buch Numerical Recipes zitieren : "... wenn der Unterschied zwischen und jemals für Sie von Bedeutung ist, haben Sie wahrscheinlich sowieso nichts Gutes im Sinn - z. B. wenn Sie versuchen, eine fragwürdige Hypothese zu begründen mit Randdaten. " n - 1nn1
JM ist kein Statistiker

11
Eine wirklich elegante, intuitive Erklärung finden Sie hier (unter dem Beweis). de.wikipedia.org/wiki/… Die Grundidee ist, dass Ihre Beobachtungen naturgemäß näher am Stichprobenmittel liegen als am Bevölkerungsmittel.
WetlabStudent

12
@Tal, aus diesem Grund saugen Schulen. Sie fragen sie "warum das ?" Und sie antworten "merken es einfach".
Pacerier

1
Wenn Sie auf der Suche nach einer intuitiven Erklärung sind, sollten Sie den Grund selbst herausfinden, indem Sie tatsächlich Proben nehmen! Beobachten Sie dies, es beantwortet genau Ihre Frage. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr: (from top answer :) "... die Standardabweichung, die anhand der Abweichungen vom Stichprobenmittel berechnet wird, unterschätzt die gewünschte Standardabweichung der Grundgesamtheit ..." Siehe auch: en.wikipedia.org/wiki/… Wenn Sie also nicht Lust haben, etwas Komplexes zu berechnen, verwenden Sie einfach n-1, wenn es aus einer Stichprobe stammt.
Andrew

Antworten:


99

Die mit einem Teiler von berechnete Standardabweichung ist eine aus der Stichprobe berechnete Standardabweichung als Schätzung der Standardabweichung der Grundgesamtheit, aus der die Stichprobe gezogen wurde. Da die beobachteten Werte im Durchschnitt näher am Stichprobenmittelwert als am Populationsmittelwert liegen, unterschätzt die Standardabweichung, die anhand der Abweichungen vom Stichprobenmittelwert berechnet wird, die gewünschte Standardabweichung der Population. Die Verwendung von anstelle von als Divisor korrigiert dies, indem das Ergebnis ein wenig größer wird.n - 1 nn1n1n

Beachten Sie, dass die Korrektur einen größeren proportionalen Effekt hat, wenn klein ist als wenn es groß ist, was wir wollen, da der Stichprobenmittelwert bei n wahrscheinlich ein guter Schätzer für den Populationsmittelwert ist.n

Wenn die Probe die gesamte Bevölkerung ist verwenden wir die Standardabweichung mit als Divisor , da die Probe bedeutet , ist Bevölkerung bedeuten.n

(Ich stelle in Klammern fest, dass nichts, was mit "dem zweiten Moment um einen bekannten, bestimmten Mittelwert herum" beginnt, die Anfrage des Fragestellers nach einer intuitiven Erklärung erfüllen wird.)


13
Verwechseln wir "intuitiv" nicht mit "nichttechnisch".
Whuber

32
@Michael, das erklärt nicht Warum verwenden wir n−1statt n−2(oder sogar n−3)?
Pacerier

1
@Pacerier Schauen Sie sich Whubers Antwort unten an, um Einzelheiten zu diesem Punkt zu erfahren. Im Wesentlichen ist die Korrektur n-1 anstatt n-2 usw., da die n-1-Korrektur Ergebnisse liefert, die sehr nahe an dem liegen, was wir benötigen. Genauere Korrekturen werden hier angezeigt: en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
Michael Lew

1
Hallo @Michael, warum ist die vom Stichprobenmittel berechnete Abweichung kleiner als das Populationsmittel?
Allen

1
"Da die beobachteten Werte im Durchschnitt näher am Mittelwert der Stichprobe als am Mittelwert der Grundgesamtheit liegen, unterschätzt die Standardabweichung, die anhand der Abweichungen vom Mittelwert der Stichprobe berechnet wird, die gewünschte Standardabweichung der Grundgesamtheit." Warum wird der Stichprobenmittelwert immer unterschätzt? Was ist, wenn es überschätzt?
Bora M. Alper

55

Eine übliche ist, dass die Definition der Varianz (einer Verteilung) der zweite Moment ist, der um einen bekannten, bestimmten Mittelwert neu zentriert wird , während der Schätzer einen geschätzten Mittelwert verwendet. Dieser Verlust eines Freiheitsgrades (angesichts des Mittelwerts können Sie den Datensatz mit Kenntnis von nur der Datenwerte wiederherstellen ) erfordert die Verwendung von anstelle von , um das Ergebnis "anzupassen".n - 1 nn1n1n

Eine solche Erklärung steht im Einklang mit den geschätzten Abweichungen bei der ANOVA- und Varianzkomponentenanalyse. Es ist wirklich nur ein Sonderfall.

Die Notwendigkeit, macht einige Anpassungen , die die Varianz aufbläst kann, glaube ich, mit einem gültigen Argumente intuitiv klar gemacht werden , dass nicht nur ist ex post facto von Hand winken. (Ich erinnere mich, dass Student in seinem Artikel über den t-Test von 1908 möglicherweise ein derartiges Argument vorgebracht hat.) Warum die Anpassung der Varianz genau ein Faktor von ist schwieriger zu rechtfertigen, besonders wenn man bedenkt dass die bereinigte SD kein unvoreingenommener Schätzer ist. (Es ist lediglich die Quadratwurzel eines unverzerrten Schätzers der Varianz. Unverzerrt zu sein überlebt normalerweise keine nichtlineare Transformation.) Tatsächlich ist die korrekte Anpassung der SD zum Entfernen ihrer Verzerrung kein Faktor vonn/(n1)n/(n1) überhaupt!

Einige Einführungslehrbücher machen sich nicht einmal die Mühe, die angepasste SD einzuführen: Sie lehren eine Formel (dividieren durch ). Ich habe zuerst negativ darauf reagiert, als ich aus einem solchen Buch unterrichtet habe, aber zunehmend die Weisheit erkannt: Um mich auf die Konzepte und Anwendungen zu konzentrieren, streifen die Autoren alle unwesentlichen mathematischen Feinheiten heraus. Es stellt sich heraus, dass nichts verletzt und niemand irregeführt wird.n


1
Vielen Dank, Whuber. Ich muss den Schülern die n-1-Korrektur beibringen, daher ist eine Aufteilung in n allein keine Option. Wie ich bereits sagte, ist es keine Option, die Verbindung zum zweiten Moment zu erwähnen. Obwohl zu erwähnen, wie der Mittelwert bereits geschätzt wurde, wodurch wir weniger "Daten" für den SD haben - das ist wichtig. In Bezug auf die Voreingenommenheit des SD - ich erinnerte mich, dass ich darauf gestoßen bin - vielen Dank, dass Sie diesen Punkt nach Hause gebracht haben. Best, Tal
Tal Galili

3
@Tal Ich habe in Ihrer Sprache geschrieben, nicht in der Ihrer Schüler, weil ich überzeugt bin, dass Sie in der Lage sind, es in alles zu übersetzen, von dem Sie wissen, dass es sie erreichen wird. Mit anderen Worten, ich habe "intuitiv" in Ihrer Frage so interpretiert, dass es für Sie intuitiv ist .
whuber

1
Hallo Whuber. Vielen Dank für das Vertrauensvotum :). Der Verlust des Freiheitsgrades für die Einschätzung der Erwartung ist einer, den ich im Unterricht anwenden wollte. Das Problem ist, dass das Konzept der "Freiheitsgrade" an sich ein Konzept ist, das Wissen / Intuition benötigt. Aber es ist nützlich, es mit einigen der anderen Antworten zu kombinieren, die in diesem Thread gegeben werden (für mich und ich hoffe für die Zukunft andere). Best, Tal
Tal Galili

Für große gibt es normalerweise keinen großen Unterschied zwischen der Division durch oder Daher wäre es akzeptabel, die unkorrigierte Formel einzuführen, vorausgesetzt, sie sollte auf große Stichproben angewendet werden, nicht wahr? n n - 1nnn1
PatrickT

1
@Patrick Möglicherweise lesen Sie zu viel in meine Antwort, da es sich explizit um die Gründe handelt: Sie sind pädagogisch und haben nichts damit zu tun, ob groß ist oder nicht. n
Whuber

50

Per Definition wird die Varianz berechnet, indem die Summe der quadrierten Differenzen aus dem Mittelwert und der Division durch die Größe gebildet wird. Wir haben die allgemeine Formel

μNσ2=iN(Xiμ)2N wobei der Mittelwert und die Größe der Population ist.μN

Entsprechend dieser Definition muss auch die Varianz einer Stichprobe (zB Stichprobe ) auf diese Weise berechnet werden.t

¯ X nσt2=in(XiX¯)2n wobei der Mittelwert ist und die Größe dieser kleinen Stichprobe ist .X¯n

Mit Stichprobenvarianz meinen wir jedoch einen Schätzer der Populationsvarianz . Wie können wir nur unter Verwendung der Werte aus der Stichprobe schätzen ?σ 2 σ 2S2σ2σ2

Entsprechend den obigen Formeln weicht die Zufallsvariable vom Stichprobenmittelwert mit der Varianz . Der Stichprobenmittelwert weicht ebenfalls von mit der Varianz da der Stichprobenmittelwert von Stichprobe zu Stichprobe unterschiedliche Werte erhält und es sich um eine Zufallsvariable mit dem Mittelwert und der Varianz . (Man kann leicht beweisen.)¯ X σ 2 t ¯ X μ σ 2XX¯σt2X¯μ μσ2σ2nμσ2n

Daher sollte grob von mit einer Varianz abweichen , die zwei Varianzen umfasst. Addieren Sie also diese beiden und erhalten Sie . Durch Lösen dieses wir . Sie ersetzen, erhalten unseren Schätzer für die Populationsvarianz:μ σ 2 = σ 2 t + σ 2Xμ σ2=σ 2 t ×nσ2=σt2+σ2n σ 2 tσ2=σt2×nn1σt2

S2=in(XiX¯)2n1 .

Man kann auch beweisen, dass wahr ist.E[S2]=σ2


Ich hoffe, das ist nicht allzu trivial: Konvergiert der Stichprobenmittelwert gegen ND ( , ), da n willkürlich groß wird, weshalb der Stichprobenmittelwert von abweicht? der wahre Mittelwert mit Varianz ? σμ σ2σnσ2n
RexYuan

6
Dies ist eine bessere Erklärung als die anderen, da es die Gleichungen und Ableitungen zeigt, anstatt einfach mit statistischen Begriffen zu yagga yagga zu gehen.
Nav

1
@sevenkul können wir einige wie sehen das visuell? Wenn Sie sagen, X sollte mit dieser Nettovarianz von abweichen , habe ich μ
keine Ahnung,

17

Dies ist eine totale Intuition, aber die einfachste Antwort ist, dass eine Korrektur vorgenommen wird, um die Standardabweichung einer Ein-Element-Stichprobe undefiniert zu machen, anstatt 0.


11
Warum also nicht oder sogar als Korrektur verwenden? :-) 1nn211exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
1n1 ist noch "sparsamer". :-)
whuber

2
@mbq, Bezüglich Ihrer Antwort ~ "Es handelt sich um eine Korrektur, die vorgenommen wurde, um die Standardabweichung der Ein-Element-Stichprobe undefiniert zu machen, anstatt 0". Ist dies wirklich der Grund, oder ist dies eine Scherzantwort? Sie wissen, dass Nicht-Mathematiker wie wir es nicht sagen können.
Pacerier

4
Formal ist es eine Konsequenz als die Vernunft, aber wie ich schrieb, halte ich es für eine gute Absicht, es auswendig zu lernen.

14

Sie können ein tieferes Verständnis des Begriffs allein durch Geometrie erlangen , nicht nur, warum es nicht sondern warum es genau diese Form annimmt, sondern Sie müssen möglicherweise zuerst Ihre Intuition aufbauen, um mit dimensionaler Geometrie fertig zu werden. Von dort aus ist es jedoch ein kleiner Schritt zu einem tieferen Verständnis der Freiheitsgrade in linearen Modellen (dh Modell df und Residuum df). Ich glaube, es gibt kaum Zweifel, dass Fisher so gedacht hat. Hier ist ein Buch, das es schrittweise aufbaut:n nn1nn

Saville DJ, Wood GR. Statistische Methoden: der geometrische Ansatz . 3. Auflage. New York: Springer-Verlag; 1991. 560 Seiten. 9780387975177

(Ja, 560 Seiten. Ich habe nach und nach gesagt.)


Danke onestop - ich hätte nicht gedacht, dass es eine Antwort aus dieser Richtung geben würde. Wie kann man die Intuition zusammenfassen, oder ist das wahrscheinlich nicht möglich? Prost, Tal
Tal Galili

Ich konnte es nicht selbst tun, aber ein Buchkritiker fasste den Ansatz in einem Absatz in Amer. Stat. im Jahr 1993: jstor.org/stable/2684984 . Ich bin mir nicht sicher, ob es wirklich praktisch ist, diesen Ansatz bei Ihren Schülern anzuwenden, es sei denn, Sie übernehmen ihn für den gesamten Kurs.
am

Können Sie ein bisschen mehr von der Intuition zusammenfassen als nur eine Buchreferenz?
30.

12

Der Schätzer der Populationsvarianz ist verzerrt, wenn er auf eine Stichprobe der Population angewendet wird. Um diese Verzerrung auszugleichen, muss durch n-1 anstelle von n dividiert werden. Man kann mathematisch zeigen, dass der Schätzer der Stichprobenvarianz unverzerrt ist, wenn wir durch n-1 anstelle von n dividieren. Ein formeller Beweis wird hier erbracht:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Anfangs war es wohl die mathematische Korrektheit, die zur Formel führte. Möchte man einer Formel jedoch Intuition hinzufügen, erscheinen die bereits erwähnten Vorschläge vernünftig.

Erstens liegen die Beobachtungen einer Stichprobe im Durchschnitt näher am Stichprobenmittelwert als am Bevölkerungsmittelwert. Der Varianzschätzer verwendet den Stichprobenmittelwert und unterschätzt folglich die wahre Varianz der Grundgesamtheit. Die Division durch n-1 anstelle von n korrigiert diese Abweichung.

Durch Division durch n-1 wird die Varianz einer Ein-Element-Stichprobe undefiniert und nicht null.


12

n1n

nn1


8
n1

1
Mein letzter Satz war ein freundlicher Rat an alle Beteiligten im Gegensatz zu einem Angriff auf die OP.
Mark L. Stone

In vielen Fällen spielt es keine Rolle, ob bei Tests oder für Vertrauensintervalle andere Teile des Verfahrens angepasst werden müssen, um am Ende das gleiche Ergebnis zu erzielen!
kjetil b halvorsen

8

αz2+2βz+γz=βαnx1,x2,,xn

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯

xinμσ2μ1ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)G(x¯)nn1n-1G(μ)=1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

Was ist nun eine intuitive Erklärung von ? Nun, wir haben das seit . Nun (1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
Außer wenn wir eine außergewöhnlich ungewöhnliche Stichprobe haben, in der alle größer als (oder alle kleiner als ), die Summanden in der doppelten Summe rechts Seite von nehmen sowohl positive als auch negative Werte an und daher treten viele Stornierungen auf. Es ist also zu erwarten, dass die Doppelsumme einen kleinen absoluten Wert hat, und wir ignorieren ihn einfach im Vergleich zum auf der rechten Seite von . Somit wird zu gemäßxiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1) .

8
Nur bei diesem Stapelaustausch würde dies jemals als intuitive Antwort angesehen werden.
Joseph Garvin

6

Man kann sich die Stichprobenvarianz als den exakten Mittelwert der paarweisen "Energie" zwischen allen Stichprobenpunkten vorstellen. Die Definition der Stichprobenvarianz wird dann zu (xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

Dies stimmt auch mit der Definition der Varianz einer Zufallsvariablen als Erwartung der paarweisen Energie überein, dh seien und unabhängige Zufallsvariablen mit derselben Verteilung, dann gilt XY

V(X)=E((XY)22)=E((XE(X))2).

Um von der zufälligen Variablendefinition zur Definition der Stichprobenvarianz zu gelangen, muss eine Erwartung durch einen Mittelwert geschätzt werden, der durch das philosophische Prinzip der Typizität gerechtfertigt werden kann: Die Stichprobe ist eine typische Darstellung der Verteilung. (Beachten Sie, dass dies mit der Schätzung nach Momenten zusammenhängt, jedoch nicht mit dieser.)


2
Ich konnte dir im letzten Absatz nicht ganz folgen. Ist nicht die mathematische Tatsache, dass ? Auch wenn die Gleichung interessant ist, verstehe ich nicht, wie sie verwendet werden könnte, um n-1 intuitiv zu unterrichten? V(X)=E((XY)22)=E((XE(X))2)
KH Kim

4
Ich mag diesen Ansatz, aber er lässt eine Schlüsselidee aus: Um die mittlere Energie zwischen allen Abtastpunktpaaren zu berechnen , müsste man die Werte , obwohl sie alle Null sind. Somit bleibt der Zähler von derselbe, aber der Nenner sollte , nicht . Dies zeigt, was für ein Kunststück vor sich gegangen ist: Irgendwie müssen Sie rechtfertigen , solche Selbstpaare nicht einzubeziehen. (Weil sie sich in der analogen Bevölkerung Definition der Varianz enthalten, ist dies nicht eine offensichtliche Sache.)(xixi)2s2nn1
whuber

4

Angenommen, Sie haben ein zufälliges Phänomen. Angenommen, Sie erhalten nur eine Stichprobe oder Realisierung . Ohne weitere Annahmen ist Ihre "einzige" vernünftige Wahl für einen Stichprobenmittelwert . Wenn Sie nicht von Ihrem Nenner subtrahieren , ist die (unkorrekte) Stichprobenvarianz , oder:N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

Seltsamerweise wäre die Varianz bei nur einer Stichprobe null. Und wenn Sie eine zweite Stichprobe das Risiko, dass sich Ihre Varianz erhöht, wenn . Das macht keinen Sinn. Intuitiv wäre eine unendliche Varianz ein vernünftigeres Ergebnis, und Sie können es nur durch "Teilen durch " wiederherstellen .yxyN1=0

Das Schätzen eines Mittelwerts entspricht dem Anpassen eines Polynoms mit dem Grad an die Daten mit einem Freiheitsgrad (dof). Diese Bessel-Korrektur gilt auch für Modelle mit höheren Freiheitsgraden: Natürlich können Sie Punkte mit einem Grad-Polynom und Dofs perfekt anpassen. Die Illusion eines Nullquadratfehlers kann nur durch Division durch die Anzahl der Punkte minus der Anzahl der Dofs ausgeglichen werden. Dieses Problem ist besonders heikel, wenn es sich um sehr kleine experimentelle Datensätze handelt .0d+1dd+1


Es ist unklar, warum "eine unendliche Varianz ein vernünftigeres Ergebnis wäre" als eine Null-Varianz. Tatsächlich scheinen Sie „Stichprobenvarianz“ im Sinne einer Varianz zu verwenden Schätzer , die noch mehr verwirrend ist.
Whuber

1
Ich verstehe. Um auf eine intuitive Erklärung zwischen zwei Optionen zu antworten, habe ich versucht vorzuschlagen, dass eine der beiden auf der Grundlage der profanen Regel inakzeptabel ist . Eine Umformulierung ist in der Tat notwendig, und bevorstehende0<
Laurent Duval

4

Auf Vorschlag von whuber wurde diese Antwort von einer anderen ähnlichen Frage übernommen .

Die Bessel-Korrektur wird angewendet, um die Abweichung bei der Verwendung der Stichprobenvarianz als Schätzer der wahren Varianz zu korrigieren. Die Verzerrung in der unkorrigierten Statistik tritt auf, weil der Stichprobenmittelwert näher an der Mitte der Beobachtungen liegt als der wahre Mittelwert, und daher unterschätzen die quadratischen Abweichungen um den Stichprobenmittelwert systematisch die quadratischen Abweichungen um den wahren Mittelwert.

Um dieses Phänomen algebraisch zu sehen, leiten Sie einfach den erwarteten Wert einer Stichprobenvarianz ohne Bessels Korrektur ab und sehen Sie, wie es aussieht. Wenn wir die unkorrigierte Stichprobenvarianz bezeichnen (mit als Nenner), haben wir:S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Die erwarteten Erträge nehmen:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

Sie sehen also, dass die nicht korrigierte Stichprobenvarianzstatistik die wahre Varianz . Die Besselsche Korrektur ersetzt den Nenner durch was einen unverzerrten Schätzer ergibt. In der Regressionsanalyse wird dies auf den allgemeineren Fall ausgedehnt, in dem der geschätzte Mittelwert eine lineare Funktion mehrerer Prädiktoren ist und in diesem letzteren Fall der Nenner für die geringere Anzahl von Freiheitsgraden weiter reduziert wird.σ2n1


Danke für den Beweis!
Upupming

0

Im Allgemeinen ergibt die Verwendung von "n" im Nenner kleinere Werte als die Populationsvarianz, die wir schätzen möchten. Dies ist insbesondere dann der Fall, wenn die kleinen Proben entnommen werden. In der Sprache der Statistik sagen wir, dass die Stichprobenvarianz eine "voreingenommene" Schätzung der Populationsvarianz liefert und "unvoreingenommen" gemacht werden muss.

Wenn Sie nach einer intuitiven Erklärung suchen, sollten Sie Ihren Schülern den Grund für diese Erklärung an Hand von Stichproben zeigen! Beobachten Sie dies, es beantwortet genau Ihre Frage.

https://www.youtube.com/watch?v=xslIhnquFoE


0

Der Stichprobenmittelwert ist definiert als , was sehr intuitiv ist. Die Stichprobenvarianz ist jedoch . Woher kommt die ?X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

Um diese Frage zu beantworten, müssen wir zur Definition eines unvoreingenommenen Schätzers zurückkehren. Ein unvoreingenommener Schätzer ist einer, dessen Erwartung zur wahren Erwartung tendiert. Der Stichprobenmittelwert ist ein unvoreingenommener Schätzer. Um zu sehen warum:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Lassen Sie uns die Erwartung der Stichprobenvarianz betrachten,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

Beachten Sie, dass eine Zufallsvariable und keine Konstante ist, sodass die Erwartung eine Rolle spielt. Dies ist der Grund für die .X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

Wie Sie sehen, wenn wir den Nenner als anstelle von , würden wir eine voreingenommene Schätzung für die Varianz erhalten! Aber mit der Schätzer ein unverzerrter Schätzer.nn1n1S2


3
Daraus folgt jedoch nicht, dass ein unvoreingenommener Schätzer der Standardabweichung ist. S
Scortchi

-1

Ich denke, es lohnt sich, auf den Zusammenhang mit der Bayes'schen Schätzung hinzuweisen. Angenommen, Sie nehmen an, Ihre Daten sind Gauß-Daten und messen den Mittelwert und die Varianz einer Stichprobe von Punkten. Sie möchten Rückschlüsse auf die Bevölkerung ziehen. Der Bayes'sche Ansatz würde darin bestehen, die posteriore prädiktive Verteilung über die Probe zu evaluieren, die eine generalisierte Student-T-Verteilung ist (der Ursprung des T-Tests). Diese Verteilung hat Mittelwert und Varianzσ 2 n μ σ 2 ( n + 1μσ2nμ

σ2(n+1n1),

das ist sogar größer als die typische Korrektur. (Es hat Freiheitsgrade.)2n

Die verallgemeinerte Student-T-Verteilung hat drei Parameter und verwendet alle drei Ihrer Statistiken. Wenn Sie sich dazu entschließen, einige Informationen zu verwerfen, können Sie Ihre Daten mithilfe einer Zwei-Parameter-Normalverteilung wie in Ihrer Frage beschrieben weiter annähern.

Vom bayesianischen Standpunkt aus können Sie sich vorstellen, dass Unsicherheiten in den Hyperparametern des Modells (Verteilungen über den Mittelwert und die Varianz) dazu führen, dass die Varianz des posterioren Predictive größer als die Populationsvarianz ist.


-4

Meine Güte, es wird kompliziert! Ich dachte, die einfache Antwort wäre ... wenn Sie alle Datenpunkte haben, können Sie "n" verwenden, aber wenn Sie eine "Stichprobe" haben, dann haben Sie, wenn es sich um eine Zufallsstichprobe handelt, mehr Stichprobenpunkte innerhalb der Standardabweichung als von außen (die Definition der Standardabweichung). Sie haben nur nicht genügend Daten im Freien, um sicherzustellen, dass Sie alle benötigten Datenpunkte nach dem Zufallsprinzip erhalten. Das n-1 hilft, in Richtung der "realen" Standardabweichung zu expandieren.


3
Das ergibt keinen Sinn. Mehr Punkte von innen als von außen? Wenn dies innerhalb von 1 SD des Mittelwerts und nicht innerhalb von 1 SD bedeutet, hat es nichts mit der Entnahme einer Probe zu tun, ob dies zutrifft. Informationen zu den erforderlichen Einschränkungen für Brüche in Intervallen um den Mittelwert finden Sie unter Chebyshevs Ungleichung. Zur Hauptfrage hier: "Hilft beim Erweitern" erklärt überhaupt nicht, da die Gewährung von möglicherweise sogar noch besser ist, und so weiter, da es hier auch implizit keine Algebra gibt. Leider trägt dies nichts zu anderen Antworten bei, außer einer Reihe verwirrter Ideen, die entweder falsch oder irrelevant sind. n - 2n1n2
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.