Ich habe einen Datensatz mit Probenbeobachtungen, die als Anzahl in Bereichsfächern gespeichert sind. z.B:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Nun ist es ziemlich einfach, daraus eine Schätzung des Durchschnitts zu finden. Verwenden Sie einfach den Mittelwert (oder Median) jedes Entfernungsbereichs als Beobachtung und die Zählung als Gewicht und ermitteln Sie den gewichteten Durchschnitt:
Für meinen Testfall ergibt dies 53,82.
Meine Frage ist nun, wie man die Standardabweichung (oder Varianz) richtig findet.
Durch meine Suche habe ich mehrere Antworten gefunden, aber ich bin mir nicht sicher, welche für meinen Datensatz tatsächlich geeignet ist. Ich konnte die folgende Formel sowohl für eine andere Frage als auch für ein zufälliges NIST-Dokument finden .
Was für meinen Testfall eine Standardabweichung von 8,35 ergibt. Der Wikipedia-Artikel über gewichtete Mittel gibt jedoch beide Formeln an:
und
Welche geben Standardabweichungen von 8,66 bzw. 7,83 für meinen Testfall.
Aktualisieren
Vielen Dank an @whuber, der vorgeschlagen hat, sich mit Sheppards Korrekturen zu befassen, und an Ihre hilfreichen Kommentare, die sich auf sie beziehen. Leider fällt es mir schwer, die Ressourcen zu verstehen, die ich dazu finden kann (und ich kann keine guten Beispiele finden). Um es noch einmal zusammenzufassen, ich verstehe, dass das Folgende eine voreingenommene Schätzung der Varianz ist:
Ich verstehe auch, dass die meisten Standardkorrekturen für die Verzerrung direkte Zufallsstichproben einer Normalverteilung sind. Daher sehe ich zwei mögliche Probleme für mich:
- Hierbei handelt es sich um Zufallsstichproben in Gruppen (ich bin mir ziemlich sicher, dass hier Sheppards Korrekturen eingehen.)
- Es ist nicht bekannt, ob die Daten für eine normale Verteilung bestimmt sind oder nicht (daher gehe ich davon aus, dass dies, da ich mir ziemlich sicher bin, Sheppards Korrekturen ungültig macht.)
Meine aktualisierte Frage lautet also: Was ist die geeignete Methode zur Behandlung der Verzerrung, die durch die "einfache" gewichtete Standardabweichung / Varianz-Formel für eine nicht normale Verteilung auferlegt wird? Insbesondere in Bezug auf zusammengefasste Daten.
Hinweis: Ich verwende die folgenden Begriffe:
- ist die gewichtete Varianz
- ist die Anzahl der Beobachtungen. (dh die Anzahl der Fächer)
- ist die Anzahl der Gewichte ungleich Null. (dh die Anzahl der Fächer mit Zählungen)
- bin die Gewichte (dh die Zählimpulse)
- bin die Beobachtungen. (dh die bin bedeutet)
- ist das gewichtete Mittel.