Standardabweichung der Beobachtungen in Gruppen

Ich habe einen Datensatz mit Probenbeobachtungen, die als Anzahl in Bereichsfächern gespeichert sind. z.B:

min/max  count
40/44    1
45/49    2
50/54    3
55/59    4
70/74    1

Nun ist es ziemlich einfach, daraus eine Schätzung des Durchschnitts zu finden. Verwenden Sie einfach den Mittelwert (oder Median) jedes Entfernungsbereichs als Beobachtung und die Zählung als Gewicht und ermitteln Sie den gewichteten Durchschnitt:

{\bar{x}}^{*} = \frac{1}{\sum_{i = 1}^{N} w_{i}} \sum_{i = 1}^{N} w_{ich} x_{ich}

$\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i$

Für meinen Testfall ergibt dies 53,82.

Meine Frage ist nun, wie man die Standardabweichung (oder Varianz) richtig findet.

Durch meine Suche habe ich mehrere Antworten gefunden, aber ich bin mir nicht sicher, welche für meinen Datensatz tatsächlich geeignet ist. Ich konnte die folgende Formel sowohl für eine andere Frage als auch für ein zufälliges NIST-Dokument finden .

s^{2 *} = \frac{\sum_{i = 1}^{N} w_{i} (x_{i} - {\bar{x}}^{*})^{2}}{\frac{(M - 1)}{M} \sum_{i = 1}^{N} w_{i}}

$s^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i }$

Was für meinen Testfall eine Standardabweichung von 8,35 ergibt. Der Wikipedia-Artikel über gewichtete Mittel gibt jedoch beide Formeln an:

s^{2 *} = \frac{\sum_{i = 1}^{N} w_{i}}{(\sum_{i = 1}^{N} w_{i})^{2} - \sum_{i = 1}^{N} w_{i}^{2}} \sum_{i = 1}^{N} w_{i} (x_{i} - {\bar{x}}^{*})^{2}

$s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2$

und

s^{2 *} = \frac{1}{(\sum_{i = 1}^{N} w_{i}) - 1} \sum_{i = 1}^{N} w_{i} (x_{i} - {\bar{x}}^{*})^{2}

$s^{2*} = \frac{1}{(\sum_{i=1}^N w_i) - 1} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2$

Welche geben Standardabweichungen von 8,66 bzw. 7,83 für meinen Testfall.

Aktualisieren

Vielen Dank an @whuber, der vorgeschlagen hat, sich mit Sheppards Korrekturen zu befassen, und an Ihre hilfreichen Kommentare, die sich auf sie beziehen. Leider fällt es mir schwer, die Ressourcen zu verstehen, die ich dazu finden kann (und ich kann keine guten Beispiele finden). Um es noch einmal zusammenzufassen, ich verstehe, dass das Folgende eine voreingenommene Schätzung der Varianz ist:

s^{2 *} = \frac{1}{\sum_{i = 1}^{N} w_{i}} \sum_{i = 1}^{N} w_{i} (x_{i} - {\bar{x}}^{*})^{2}

$s^{2*} = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2$

Ich verstehe auch, dass die meisten Standardkorrekturen für die Verzerrung direkte Zufallsstichproben einer Normalverteilung sind. Daher sehe ich zwei mögliche Probleme für mich:

Hierbei handelt es sich um Zufallsstichproben in Gruppen (ich bin mir ziemlich sicher, dass hier Sheppards Korrekturen eingehen.)
Es ist nicht bekannt, ob die Daten für eine normale Verteilung bestimmt sind oder nicht (daher gehe ich davon aus, dass dies, da ich mir ziemlich sicher bin, Sheppards Korrekturen ungültig macht.)

Meine aktualisierte Frage lautet also: Was ist die geeignete Methode zur Behandlung der Verzerrung, die durch die "einfache" gewichtete Standardabweichung / Varianz-Formel für eine nicht normale Verteilung auferlegt wird? Insbesondere in Bezug auf zusammengefasste Daten.

Hinweis: Ich verwende die folgenden Begriffe:

ist die gewichtete Varianz $s^{2*}$
ist die Anzahl der Beobachtungen. (dh die Anzahl der Fächer) $N$
ist die Anzahl der Gewichte ungleich Null. (dh die Anzahl der Fächer mit Zählungen) $M$
bin die Gewichte (dh die Zählimpulse) $w_i$
bin die Beobachtungen. (dh die bin bedeutet) $x_i$
ist das gewichtete Mittel. $\bar{x}^*$

variance standard-deviation weighted-sampling

— chezy525
quelle

Google "Sheppards Korrekturen" für die Standardlösungen für dieses Problem.

— Whuber

@whuber, ich fürchte, mein google-foo versagt mir ... Ich finde nicht viel darüber, wie man Sheppards Korrekturen verwendet. Soweit ich das beurteilen kann, handelt es sich um eine Korrektur für die Binned-Art der Daten und würde in meinem Testfall gerne verwendet

, wobei

die Größe der Fächer ist (in meinem Testfall 4). Ist das richtig? Auf jeden Fall scheint mir das, was ich finde, immer noch nicht zu helfen,

zu berechnen.

s^{2 *} - \frac{c^{2}}{12}

$s^{2*} - \frac{c^2}{12}$

c

$c$

s^{2 *}

$s^{2*}$

— chezy525

Der zweite Treffer in meiner Google-Suche enthält eine explizite Formel (Gleichung 9).

— Whuber

@whuber, es sind ein paar Monate vergangen, und ich habe ein paar Mal versucht, das Dokument zu lesen, das Sie verlinkt haben. Ich glaube, ich vermisse immer noch etwas, aber das Beste, was mir eingefallen ist, ist, dass die endgültige Gleichung, die ich aufgelistet habe, als unverzerrter Schätzer korrekt ist. Ist das richtig?

— Chezy525

Sheppards Korrekturen gehen nicht von Normalität aus.

— Glen_b -Reinstate Monica

Diese Antwort enthält zwei Lösungen: Sheppards Korrekturen und eine Schätzung der maximalen Wahrscheinlichkeit. Beide stimmen eng mit einer Schätzung der Standardabweichung überein: für den ersten und für den zweiten Schätzer (angepasst, um mit dem üblichen "unvoreingenommenen" Schätzer vergleichbar zu sein). $7.70$ $7.69$

Sheppards Korrekturen

"Sheppards Korrekturen" sind Formeln, mit denen Momente angepasst werden, die aus bestimmten Daten (wie diesen) berechnet wurden

die Daten werden angenommen durch eine Verteilung auf einem endlichen Intervall unterstützt regiert werden $[a,b]$
Dieses Intervall wird nacheinander in gleiche Fächer der gemeinsamen Breite , die relativ klein sind (kein Fach enthält einen großen Anteil aller Daten). $h$
Die Verteilung hat eine kontinuierliche Dichtefunktion.

Sie leiten sich aus der Euler-Maclaurin-Summenformel ab, die Integrale in Form linearer Wertekombinationen des Integranden an regelmäßig beabstandeten Punkten approximiert und daher allgemein anwendbar ist (und nicht nur für Normalverteilungen).

Streng genommen wird eine Normalverteilung in einem endlichen Intervall nicht unterstützt, aber in extrem enger Näherung. Im Wesentlichen ist seine gesamte Wahrscheinlichkeit in sieben Standardabweichungen des Mittelwerts enthalten. Daher gelten die Korrekturen von Sheppard für Daten, von denen angenommen wird, dass sie aus einer Normalverteilung stammen.

Die ersten beiden Korrekturen von Sheppard sind

Verwenden Sie den Mittelwert der gruppierten Daten für den Mittelwert der Daten (dh, für den Mittelwert ist keine Korrektur erforderlich).
Subtract $h^2/12$ von der Varianz der Daten , die die klassierten (ungefähre) Varianz der Daten zu erhalten.

$h^2/12$ $h$ $-h/2$ $h/2$ $h^2/12$

Lassen Sie uns die Berechnungen machen. Ich Rillustriere sie, indem ich die Anzahl und die Fächer angebe:

counts <- c(1,2,3,4,1)
bin.lower <- c(40, 45, 50, 55, 70)
bin.upper <- c(45, 50, 55, 60, 75)

Die richtige Formel für die Zählungen ergibt sich aus der Replikation der Behälterbreiten mit den durch die Zählungen angegebenen Beträgen. Das heißt, die zusammengefassten Daten sind äquivalent zu

42.5, 47.5, 47.5, 52.5, 52.5, 57.5, 57.5, 57.5, 57.5, 72.5

$x$ $k$ $kx^2$

bin.mid <- (bin.upper + bin.lower)/2
n <- sum(counts)
mu <- sum(bin.mid * counts) / n
sigma2 <- (sum(bin.mid^2 * counts) - n * mu^2) / (n-1)

mu $1195/22 \approx 54.32$ sigma2 $675/11 \approx 61.36$ $7.83$ $h=5$ $h^2/12 = 25/12 \approx 2.08$ $\sqrt{675/11 - 5^2/12} \approx 7.70$ für die Standardabweichung.

Maximum Likelihood Estimates

$F_\theta$ $\theta$ $(x_0, x_1]$ $k$ $F_\theta$

\log \prod_{i = 1}^{k} (F_{θ} (x_{1}) - F_{θ} (x_{0})) = k \log (F_{θ} (x_{1}) - F_{θ} (x_{0}))

$\log \prod_{i=1}^k \left(F_\theta(x_1) - F_\theta(x_0)\right) = k\log\left(F_\theta(x_1) - F_\theta(x_0)\right)$

(siehe MLE / Wahrscheinlichkeit eines normalverteilten Intervalls ).

$\Lambda(\theta)$ $\hat\theta$ $-\Lambda(\theta)$ $\theta$ R

sigma <- sqrt(sigma2) # Crude starting estimate for the SD
likelihood.log <- function(theta, counts, bin.lower, bin.upper) {
  mu <- theta[1]; sigma <- theta[2]
  -sum(sapply(1:length(counts), function(i) {
    counts[i] * 
      log(pnorm(bin.upper[i], mu, sigma) - pnorm(bin.lower[i], mu, sigma))
  }))
}
coefficients <- optim(c(mu, sigma), function(theta) 
  likelihood.log(theta, counts, bin.lower, bin.upper))$par

$(\hat\mu, \hat\sigma) = (54.32, 7.33)$

$\sigma$ $n/(n-1)$ $\sigma$ $\sqrt{n/(n-1)} \hat\sigma = \sqrt{11/10}\times 7.33 = 7.69$ $7.70$ .

Überprüfung der Annahmen

Um diese Ergebnisse zu visualisieren, können wir die angepasste Normaldichte über ein Histogramm zeichnen:

hist(unlist(mapply(function(x,y) rep(x,y), bin.mid, counts)),
     breaks = breaks, xlab="Values", main="Data and Normal Fit")
curve(dnorm(x, coefficients[1], coefficients[2]), 
      from=min(bin.lower), to=max(bin.upper), 
      add=TRUE, col="Blue", lwd=2)

Zahl

$11$ Werte), können überraschend große Abweichungen zwischen der Verteilung der Beobachtungen und der tatsächlichen zugrunde liegenden Verteilung auftreten.

$\chi^2$ $\chi^2$ R

breaks <- sort(unique(c(bin.lower, bin.upper)))
fit <- mapply(function(l, u) exp(-likelihood.log(coefficients, 1, l, u)),
              c(-Inf, breaks), c(breaks, Inf))
observed <- sapply(breaks[-length(breaks)], function(x) sum((counts)[bin.lower <= x])) -
  sapply(breaks[-1], function(x) sum((counts)[bin.upper < x]))
chisq.test(c(0, observed, 0), p=fit, simulate.p.value=TRUE)

Die Ausgabe ist

Chi-squared test for given probabilities with simulated p-value (based on 2000 replicates)

data:  c(0, observed, 0) 
X-squared = 7.9581, df = NA, p-value = 0.2449

$0.245$

— whuber
quelle