Wie genau sind Daten, die durch eine Zufallsstichprobe erhalten wurden?

Ich bin ein Neuling in der Statistik. Wenn ich hier falsche Annahmen mache, sag es mir bitte.

Es gibt eine Bevölkerung Nvon Menschen. (Zum Beispiel Nkönnen 1.000.000 sein.) Einige der Leute sind Rothaarige. Ich nehme eine Stichprobe nvon Menschen (sagen wir 10) und finde, dass es sich jbei ihnen um Rothaarige handelt.

Was kann ich über den allgemeinen Anteil der Rothaarigen an der Bevölkerung sagen? Ich meine, meine beste Annäherung ist wahrscheinlich j/n, aber was wäre die Standardabweichung dieser Annäherung?

Was ist übrigens der akzeptierte Begriff dafür?

— Ram Rachum
quelle

Warum pflücken wir immer die Ginger? :)

— Brandon Bertelsen

Antworten:

Sie können sich dies als Binomialversuch vorstellen - Ihre Versuche sind Stichproben von "Rotschopf" oder "Nicht-Lesekopf". In diesem Fall können Sie ein Konfidenzintervall für Ihren Stichprobenanteil ( ) erstellen, wie auf Wikipedia dokumentiert: $j/n$

Konfidenzintervall des Binomialanteils

Ein 95% -Konfidenzintervall besagt grundsätzlich, dass bei Verwendung des gleichen Stichprobenalgorithmus, wenn Sie dies 100 Mal wiederholen, der wahre Anteil 95 Mal im angegebenen Intervall liegt.

Update Übrigens denke ich, dass der Begriff, den Sie suchen, ein Standardfehler sein könnte, der die Standardabweichung der abgetasteten Proportionen ist. In diesem Fall ist es wobei Ihr geschätzter Anteil ist. Beachten Sie, dass mit zunehmendem der Standardfehler abnimmt. $\sqrt{{p (1-p)} \over {n}}$ $p$ $n$

— ars
quelle

@ars: Alles ist korrekt und gut angegeben. Eines scheint jedoch zu fehlen: Die Standardabweichung der "besten Näherung" j / n hängt vom tatsächlichen Anteil der Rothaarigen ab, nicht vom geschätzten. Das Problem ist natürlich, dass wir den wahren Anteil nicht kennen. Es bleibt jedoch die Tatsache, dass der Standardfehler tatsächlich nicht der Standardabweichung der Näherung entspricht, es sei denn, die Schätzung ist genau richtig. Ich weiß, dass Sie nicht an diese Subtilität erinnert werden müssen, und die meisten Leser auch nicht, aber es ist ziemlich relevant für die ursprüngliche Frage.

— whuber

@whuber: Diese Klarstellung hat mich etwas verwirrt. Was wäre bei einem und einem der Standardfehler, der durch und ? (Im Gegensatz dazu, abhängig von dem wahren Anteil der Rothaarigen zu sein, den wir nicht kennen können.)

j

$j$

n

$n$

j

$j$

n

$n$

— Ram Rachum

@ cool-RR: ars ist bezüglich des Standardfehlers korrekt. Der Punkt ist, dass der Standardfehler selbst eine Schätzung ist, wie genau die Statistik j / n den wahren Anteil schätzt. Angenommen, 10% aller Menschen sind Rothaarige. Dann kann es in vielen Fällen vorkommen, dass j = 0 ist, wenn n = 10 ist. Sie würden eine SE von Sqrt (0 (1-0) / 10) = 0 erhalten. Dies unterschätzt offensichtlich die tatsächliche Genauigkeit Ihrer Statistik p = j / n = 0/10. Die wahre Genauigkeit ist Sqrt (0,10 (1-0,90) / n), obwohl Sie das nicht wissen!

— whuber

Nochmals: Ich interessiere mich für das, was ich wissen kann , nicht für das, was ich nicht wissen kann. Nehmen wir Ihr Beispiel mit und . Der wahrscheinlichste Anteil an Rothaarigen liegt bei 0%, aber es besteht eine gute Chance, dass er 2% oder 5% oder 10% beträgt. Meine Frage lautet also: Wenn und , wie groß ist die Wahrscheinlichkeitsverteilungsfunktion des Anteils der Rothaarigen aus den Informationen, die ich kenne, und nicht aus den Informationen, die ich nicht kenne?

j = 0

$j=0$

n = 10

$n=10$

j = 0

$j=0$

n = 10

$n=10$

— Ram Rachum

@ cool-RR: Verwenden Sie für kleine Stichproben das im Wikipedia-Link angegebene Agresti-Coull-Intervall für Konfidenzintervalle. Basierend auf Ihren Beobachtungen erhalten Sie ein 95% -Intervall für die Schätzung. Was Sie dann wissen, basierend auf dem, was Sie beobachtet haben, ist in der Definition eines 95% -KI enthalten.

— Ars

Wenn Ihre Stichprobengröße nicht so ein winziger Bruchteil der Populationsgröße wie in Ihrem Beispiel, und wenn Sie ersatzlos [Sw / oR] beproben, ist ein besserer Ausdruck für die [geschätzte] SE $n$ $N$

\hat{S E} = \sqrt{\frac{N - n}{N} \frac{\hat{p} \hat{q}}{n}},

$\hat{SE} = \sqrt{\frac{N - n}{N}\frac{\hat p \hat q}{n}},$

Dabei ist der geschätzte Anteil und . $\hat p$ $j/n$ $\hat q = 1- \hat p$

[Der Begriff wird als FPC [endliche Populationskorrektur] bezeichnet. $\frac{N-n}{N}$

Obwohl die Bemerkung von whuber technisch korrekt ist, scheint sie darauf hinzudeuten, dass nichts getan werden kann, um beispielsweise ein Konfidenzintervall für den wahren Anteil . Wenn groß genug ist, um eine normale Näherung vernünftig zu machen [z . B. ], ist es unwahrscheinlich, dass man erhält . Wenn die Stichprobengröße groß genug ist, damit eine normale Annäherung unter Verwendung der wahren angemessen ist, ergibt die Verwendung von stattdessen auch eine vernünftige Annäherung. $p$ $n$ $np > 10$ $j=0$ $SE$ $\hat{SE}$

[Wenn Ihr wirklich klein ist und Sie Sw / oR verwenden, müssen Sie möglicherweise die exakte hypergeometrische Verteilung für anstelle einer normalen Näherung verwenden. Wenn Sie SwR machen, ist die Größe von irrelevant und Sie können exakte Binomialmethoden verwenden, um ein CI für .] $n$ $j$ $N$ $p$

In jedem Fall könnte man, da , immer konservativ sein und anstelle von oben. Wenn Sie dies tun, wird eine Stichprobe von , um eine geschätzte ME [Fehlerquote = 2 ] von .03 [unabhängig davon, wie groß ist!] zu erhalten. $p(1-p) \le 1/4$ $\frac{1}{2\sqrt{n}}$ $\sqrt{\frac{\hat p \hat q}{n}}$ $n = 1,111$ $\hat {SE}$ $\pm$ $N$

— Ronaf
quelle