Was ist der Unterschied zwischen N und N-1 bei der Berechnung der Populationsvarianz?


50

Ich habe nicht verstanden, warum es Nund N-1während der Berechnung der Populationsvarianz gibt. Wann verwenden wir Nund wann verwenden wir N-1?

Bildbeschreibung hier eingeben
Klicken Sie hier für eine größere Version

Wenn die Population sehr groß ist, gibt es keinen Unterschied zwischen N und N-1, aber es sagt nichts darüber aus, warum es am Anfang N-1 gibt.

Bearbeiten: Bitte nicht verwechseln mit nund n-1welche bei der Schätzung verwendet werden.

Edit2: Ich spreche nicht über Bevölkerungsschätzung.


5
Dort finden Sie eine Antwort: stats.stackexchange.com/questions/16008/… . Grundsätzlich sollten Sie N-1 verwenden, wenn Sie eine Varianz schätzen , und N, wenn Sie sie genau berechnen .
3.

@ocram, soweit ich weiß, verwenden wir entweder n oder n-1, wenn wir eine Varianz schätzen.
3.

Wenn Sie möchten, dass Ihr Schätzer unvoreingenommen ist, sollten Sie n-1 verwenden. Beachten Sie, dass dies keine Rolle spielt, wenn n groß ist.
3.

2
Keine der folgenden Antworten wurde in Bezug auf die endliche Populationsinferenz geschrieben. Das Wort endlich ist hier absolut entscheidend; Darum geht es in Kishs Buch (und wer auch immer sagte "Das Buch ist falsch", weiß einfach nicht genug über endliche Bevölkerungsumfragen und Stichproben). Der Quotient anstelle von N macht Berechnungen einfacher und vermeidet die Notwendigkeit, Faktoren wie 1 - 1 / N zu berücksichtigen . Die vollständige Antwort auf diese Frage müsste den Stichprobenschluss einführen, bei dem die Stichprobenindikatoren zufällig sind und die Werte der beobachteten Merkmale y FEST sind. Nicht zufällig. In Stein gemeißelt. N1N11/Ny
StasK

2
Dies trägt nicht wirklich zu den anderen Antworten bei. Dass verschiedene Teiler unterschiedliche Antworten geben oder dass sich der Unterschied mit N verringert, ist nicht in Frage. Die Frage ist, wann und warum ein Divisor verwendet werden soll.
Nick Cox

Antworten:


26

ist die Populationsgröße und n ist die Stichprobengröße. Die Frage lautet, warum die Populationsvarianz die Abweichung des mittleren Quadrats vom Mittelwert ist und nicht das ( N - 1 ) / N = 1 - ( 1 / N ) -fache. Warum eigentlich dort aufhören? Warum multiplizieren Sie nicht zum Beispiel die mittlere quadratische Abweichung mit 1 - 2 / N oder 1 - 17 / N oder exp ( - 1 / N ) ?Nn(N1)/N=1(1/N)12/N117/Nexp(1/N)

Es gibt tatsächlich einen guten Grund, dies nicht zu tun. Jede dieser Zahlen, die ich gerade erwähnte, wäre eine gute Möglichkeit, eine "typische Ausbreitung" innerhalb der Bevölkerung zu quantifizieren. Ohne vorherige Kenntnis der Populationsgröße wäre es jedoch unmöglich, eine Zufallsstichprobe zu verwenden, um einen unverzerrten Schätzer für eine solche Zahl zu finden. Wir wissen, dass die Stichprobenvarianz , die die mittlere quadratische Abweichung vom Stichprobenmittelwert mit multipliziert , ein unverzerrter Schätzer für die übliche Populationsvarianz bei Stichproben mit Ersatz ist. (Es gibt kein Problem mit dieser Korrektur, da wir n kennen !) Die Stichprobenvarianz wäre daher voreingenommen(n1)/nnSchätzer eines Vielfachen der Populationsvarianz, wobei dieses Vielfache, wie , vorher nicht genau bekannt ist.11/N

Dieses Problem einer unbekannten Verzerrung würde sich auf alle statistischen Tests ausbreiten, die die Stichprobenvarianz verwenden, einschließlich T-Tests und F-Tests. Tatsächlich würde eine Division durch irgendetwas anderes als in der Populationsvarianzformel erfordern, dass wir alle statistischen Tabellen von t-Statistiken und F-Statistiken (und viele andere Tabellen auch) ändern, aber die Anpassung würde von der Populationsgröße abhängen. Niemand möchte Tische für jedes mögliche N machen müssen ! Besonders wenn es nicht nötig ist.NN

NN1NMachen Sie sich nicht einmal die Mühe, den Unterschied zu lehren: Sie stellen einfach eine einzige Varianzformel bereit (dividieren durch oder n, je nachdem, was der Fall ist).Nn


24

Anstatt in die Mathematik zu gehen, werde ich versuchen, es in einfachen Worten auszudrücken. Wenn Sie die gesamte Population zur Verfügung haben, wird deren Varianz ( Populationsvarianz ) mit dem Nenner berechnet N. Wenn Sie nur eine Stichprobe haben und die Varianz dieser Stichprobe berechnen möchten , verwenden Sie ebenfalls den Nenner N(in diesem Fall n der Stichprobe). Beachten Sie , dass Sie in beiden Fällen nichts schätzen : Der gemessene Mittelwert ist der wahre Mittelwert, und die Varianz, die Sie aus diesem Mittelwert berechnet haben, ist die wahre Varianz.

Jetzt haben Sie nur eine Stichprobe und möchten auf den unbekannten Mittelwert und die Varianz in der Population schließen. Mit anderen Worten, Sie möchten Schätzungen . Sie nehmen Ihren Stichprobenmittelwert für die Schätzung des Bevölkerungsmittelwerts (da Ihre Stichprobe repräsentativ ist), OK. Um eine Schätzung der Populationsvarianz zu erhalten, müssen Sie so tun, als wäre dieser Mittelwert wirklich ein Populationsmittelwert und daher nicht mehr von Ihrer Stichprobe abhängig, seit Sie ihn berechnet haben. Um zu "zeigen", dass Sie es jetzt als fest annehmen, reservieren Sie eine (beliebige) Beobachtung aus Ihrer Stichprobe, um den Mittelwert zu "stützen". haben und die glauben, ist unempfindlich gegen Stichprobenunfälle. Eine reservierte Beobachtung ist "-1"N-1 bei der Berechnung der Varianzschätzung.

Stellen Sie sich vor, Sie kennen irgendwie den wahren Populationsmittelwert, möchten aber die Varianz aus der Stichprobe abschätzen. Dann werden Sie , dass die wahre Mittelwert in die Formel für die Varianz ersetzen und Nenner gelten N: nein „-1“ ist hier notwendig , da Sie wissen , die wahre Mittelwert, haben Sie es nicht aus derselben Probe abzuschätzen.


Aber meine Frage hat nichts mit Schätzung zu tun. Es geht um die Berechnung der Populationsvarianz; mit N und N-1. Ich spreche nicht von n und n-1.
3.

1
@ilhan, in meiner Antwort habe ich sowohl Nfür N als auch für n verwendet. Nist die Größe einer Gesamtheit, entweder der Grundgesamtheit oder der Stichprobe. Um die Populationsvarianz zu berechnen , müssen Sie über eine Population verfügen. Wenn Sie nur eine Stichprobe haben, können Sie entweder die Varianz dieser Stichprobe oder die geschätzte Varianz der Grundgesamtheit berechnen . Kein anderer Weg.
ttnphns

Ich habe vollständige Informationen über meine Bevölkerung. Alle Werte sind bekannt. Schätzung interessiert mich nicht.
3.

1
Wenn Sie über eine Population verfügen, ist die Verwendung von N. N-1 unlogisch.
ttnphns

1
@ilhan - Konnte Ihren Kommentar zu ttnphns Beitrag nicht direkt kommentieren, aber hier finden Sie eine Erklärung dessen, was Sie in dem Buch sehen und wie Sie darauf schließen sollten. Das Symbol 'S' im Sinne einer Varianz bezieht sich immer auf die Stichprobenvarianz. Der griechische Buchstabe Sigma bezeichnet die Populationsvarianz. Das ist der Grund, warum das Buch S = N * sigma / (N - 1)
Arvind

9

Wenn man nur einen Bruchteil der Bevölkerung hat, dh eine Stichprobe, sollte man im Allgemeinen durch n-1 dividieren. Es gibt einen guten Grund, dies zu tun. Wir wissen, dass die Stichprobenvarianz, die die mittlere quadratische Abweichung vom Stichprobenmittelwert mit (n - 1) / n multipliziert, ein unverzerrter Schätzer der Populationsvarianz ist.

Einen Beweis dafür, dass der Schätzer der Stichprobenvarianz unparteiisch ist, finden Sie hier: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Wenn man ferner den Schätzer der Populationsvarianz anwenden würde, das ist die Version des Varianzschätzers, die bei einer Stichprobe von anstelle der Population durch n dividiert, würde der erhaltene Schätzer verzerrt.


Dies scheint eine andere Frage hinsichtlich der Schätzung der Populationsvarianz zu beantworten. Es sieht zirkulär aus: Geht diese Antwort nicht von einer bestimmten Konvention zur Definition der Populationsvarianz aus?
Whuber

7

In der Vergangenheit gab es ein Argument, dass Sie N für eine nicht-inferentielle Varianz verwenden sollten, aber ich würde das nicht mehr empfehlen. Sie sollten immer N-1 verwenden. Wenn die Stichprobengröße abnimmt, ist N-1 eine ziemlich gute Korrektur für die Tatsache, dass die Stichprobenvarianz geringer wird (es ist nur wahrscheinlicher, dass Sie nahe dem Peak der Verteilung abtasten - siehe Abbildung). Wenn die Stichprobe wirklich groß ist, spielt es keine Rolle, wie viel sie aussagt.

Eine alternative Erklärung ist, dass die Population ein theoretisches Konstrukt ist, das unmöglich zu erreichen ist. Verwenden Sie daher immer N-1, da Sie, was auch immer Sie tun, bestenfalls die Populationsvarianz schätzen.

Außerdem werden Sie ab jetzt N-1 für Varianzschätzungen sehen. Dieses Problem wird wahrscheinlich nie mehr auftreten, außer bei einem Test, bei dem Ihr Lehrer Sie möglicherweise auffordert, eine Unterscheidung zwischen Inferenz und Inferenz zu treffen nicht-inferentielles Varianzmaß. Verwenden Sie in diesem Fall weder die Antwort von whuber noch meine, lesen Sie die Antwort von ttnphns.

Abbildung 1

Beachten Sie, dass in dieser Abbildung die Varianz in der Nähe von 1 liegen sollte. Sehen Sie, wie stark sie mit der Stichprobengröße variiert, wenn Sie N zum Schätzen der Varianz verwenden. (Dies ist die "Voreingenommenheit", auf die sich Elswhere bezieht.)


1
Bitte sagen Sie mir, warum N "nicht mehr empfohlen" mit der wahren Bevölkerung zur Hand? Bevölkerung ist nicht immer ein theoretisches Konstrukt. Manchmal ist Ihre Stichprobe eine echte Population für Sie.
ttnphns

1
ilhan, N kann für Ihre Stichprobe verwendet werden, oder es kann für die Populationsgröße verwendet werden, falls eine vorhanden ist. In den meisten Fällen hängt die Unterscheidung zwischen großem und kleinem n vom Thema ab. Zum Beispiel könnte n die Anzahl der Fälle in jeder Bedingung in einem Experiment sein, während N die Anzahl für das Experiment sein könnte. Sie sind beide Proben. Es gibt keine globale Regel.
John

1
ttnphns, es kommt darauf an, was Sie unter Bevölkerung verstehen. Ich würde argumentieren, dass, wenn Ihre gesamte Population so klein ist, dass N-1 eine Rolle spielt, es fraglich ist, ob die Berechnung einer mittleren quadratischen Abweichung überhaupt sinnvoll ist. Zeigen Sie alle Werte, ihre Form und ihren Bereich an. Darüber hinaus ist das ganze alte Argument, dass Sie tatsächlich N Freiheitsgrade haben, wenn Sie keine Schlussfolgerung ziehen, fraglich. Sie haben einen verloren, als Sie den Mittelwert berechnet haben, den Sie zur Berechnung der Varianz benötigt haben.
John

1
@ John, wenn Sie innerhalb Bevölkerung bedeuten berechnen Sie nur angeben , die Tatsache , über die Parameter, so dass Sie keine Freiheitsgrade verbringen. Wenn Sie es in Stichprobe berechnen und auf die Population schließen möchten , geben Sie eine aus. Ich kann auch eine Population mit N = 1 haben. Mit dem Nenner N-1 scheint es, dass ein solcher Parameter wie die Varianz für ihn nicht existiert . Das ist Unsinn.
ttnphns

3
@ilhan Bitte denken Sie daran, Ihre Frage zu aktualisieren (wie Sie es getan haben) und auf die aktualisierte Version zu verweisen, anstatt solche nicht konstruktiven Kommentare zu hinterlassen. Alles ist umstritten, vor allem, wenn die Frage selbst einen Zusammenhang fehlt. Hier scheint das Problem darin zu liegen, zu definieren, was eine Bevölkerung wirklich ist.
chl

4

Die Populationsvarianz ist die Summe der quadratischen Abweichungen aller Werte in der Population geteilt durch die Anzahl der Werte in der Population. Wenn wir die Varianz einer Population von einer Stichprobe abschätzen, stoßen wir jedoch auf das Problem, dass die Abweichungen der Stichprobenwerte vom Mittelwert der Stichprobe im Durchschnitt etwas geringer sind als die Abweichungen dieser Stichprobenwerte vom ( unbekannt). Dies führt dazu, dass die aus der Stichprobe berechnete Varianz etwas geringer ist als die tatsächliche Populationsvarianz. Die Verwendung eines n-1-Divisors anstelle von n korrigiert diese Unterschätzung.


@ Bunnenburg, wenn du antwort auf deine frage hast. Bitte klar mir jetzt, was du hast? Es ist auch eine große Verwirrung für mich.
Bilal Para

Warum kann man n-2, n-3 usw. nicht verwenden , um die etwas geringere Varianz zu kompensieren ? warum gerade n-1? warum nicht eine konstante ... ???
Saravanabalagi Ramachandran

@SaravanabalagiRamachandran Die Diskrepanz variiert mit der Stichprobengröße, sodass eine Konstante nicht zur Verfügung steht. Die Korrektur mit n-1 funktioniert besser als die anderen, die Sie erwähnen.
Michael Lew
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.