Standardfehler der Probe Standardabweichung der Proportionen

Ich habe kürzlich angefangen, Gelman und Hill's "Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen" zu lesen, und die Frage basiert darauf:

Die Stichprobe enthält 6 Beobachtungen zu Proportionen: $p_{1}, p_{2}, \dots, p_{6}$

Jedes hat den Mittelwert und die Varianz , wobei die Anzahl der Beobachtungen ist, die zur Berechnung des Anteils verwendet werden . $p_{i}$ $\pi_{i}$ $\frac{\pi_{i}(1-\pi_{i})}{n_i}$ $n_{i}$ $p_{i}$

Die Teststatistik ist Stichprobenstandardabweichung dieser Anteile. $T_{i} =$

Das Buch sagt , dass Erwartungswert der Stichprobenvarianz der sechs Proportionen, , ist . Ich verstehe das alles. $p_{1}, p_{2}, \dots, p_{6}$ $(1/6)\sum_{i=1}^{6} \pi_{i}(1-\pi_{i})/n_{i}$

Was ich wissen möchte, ist die Verteilung von und seine Varianz? Würde mich freuen, wenn jemand mich wissen lassen könnte, was es ist, oder mich zu einem Buch oder Artikel führen könnte, der diese Informationen enthält. $T_{i}$

Danke vielmals.

distributions binomial standard-deviation

— Curious2learn
quelle

Ich habe das Buch nicht zu überprüfen, aber die Aussage über den erwarteten Wert der Stichprobenvarianz erscheint mir seltsam. Sicherlich sollte es auch von der Variabilität von abhängen .

π_{i}

$\pi_i$

— Aniko

Eine Teststatistik ist ein Suchwert für eine Verteilung wie Student's t, Normalverteilung, F-Verteilung usw. Suchen Sie im Buch nach dem Namen der Verteilung für diese Statistik. Die Varianz sollte in ähnlicher Weise damit zusammenhängen.

— Carl

Niemand würde die Verteilung von genau wissen wollen, weil es so böse ist. Das liegt daran, dass die Proportionen selbst diskret sind - kann nur die Werte annehmen - und daher ist (es sollte kein Index darauf sein) auch diskret: aber seine möglichen Werte, die zahlreich sind, fallen nicht in eine gleichmäßig verteilte Reihe von Intervallen. Seine Varianz ist nicht allzu schwer zu berechnen, da es eine Funktion der ersten vier Momente jedes der und diese relativ einfach zu schreiben sind.

T_{i}

$T_i$

p_{i}

$p_i$

0 / n_{i}, 1 / n_{i}, \dots, n_{i} / n_{i}

$0/n_i, 1/n_i, \ldots, n_i/n_i$

T

$T$

p_{i}

$p_i$

— whuber

@Carl wahr, und obwohl keine direkte Antwort auf die Frage von OP erwägenswert ist. Manchmal können jedoch genaue Verteilungen für Teststatistiken abgeleitet werden, und diese können bessere Eigenschaften kleiner Proben der entsprechenden Tests liefern. Ich erwarte nicht, dass dies so ist.

— AdamO

Die genauen Verteilungen für die Proportionen sind , und die Proportionen können Werte . Die resultierende Verteilung der Probenstandardabweichung ist eine komplizierte diskrete Verteilung. Wenn Sie , kann es in seiner trivialsten Form geschrieben werden als: $p_i \text{ ~ Bin}(n_i, \pi_i)/n_i$ $p_i = 0, \frac{1}{n_i}, \frac{2}{n_i}, ..., \frac{n_i-1}{n_i}, 1$ $T$ $\boldsymbol{p} \equiv (p_1, p_2, ..., p_6)$

F_{T} (t) \equiv P (T ⩽ t) = \sum_{p \in P (t)} \prod_{i = 1}^{6} Bin (n_{i} p_{i} | n_{i}, π_{i}),

$F_T(t) \equiv \mathbb{P}(T \leqslant t) = \sum_{\boldsymbol{p \in \mathcal{P}(t)}} \prod_{i=1}^6 \text{Bin}( n_i p_i|n_i, \pi_i),$

Dabei ist ist die Menge aller Proportionsvektoren, die zu einer Stichprobenvarianz führen, die nicht größer als . Es gibt wirklich keine Möglichkeit, dies im allgemeinen Fall zu vereinfachen. Um eine genaue Wahrscheinlichkeit aus dieser Verteilung zu erhalten, müssten Sie die Proportionsvektoren aufzählen, die eine Stichprobenvarianz im interessierenden Bereich ergeben, und dann die Binomialprodukte über diesen aufgezählten Bereich summieren. Es wäre eine mühsame Berechnungsübung für selbst mäßig große Werte von . $\mathcal{P}(t) \equiv \{ \boldsymbol{p}| T \leqslant t \}$ $t$ $n_1, ..., n_6$

Offensichtlich ist die obige Verteilung keine sehr hilfreiche Form. Alles, was es Ihnen wirklich sagt, ist, dass Sie die interessierenden Ergebnisse aufzählen und dann ihre Wahrscheinlichkeiten summieren müssen. Aus diesem Grund wäre es in diesem Fall ungewöhnlich, genaue Wahrscheinlichkeiten zu berechnen, und es ist viel einfacher, eine asymptotische Form für die Verteilung der Stichprobenvarianz heranzuziehen.

— Ben - Monica wieder einsetzen
quelle