Standardfehler einer Zählung

14

Ich habe einen Datensatz von Vorfallsfällen nach Jahreszeit einer seltenen Krankheit. Angenommen, es gab 180 Fälle im Frühjahr, 90 im Sommer, 45 im Herbst und 210 im Winter. Ich kämpfe mit der Frage, ob es angebracht ist, Standardfehler an diese Zahlen anzuhängen. Die Forschungsziele sind insofern schlüssig, als wir nach einem saisonalen Muster für die Inzidenz von Krankheiten suchen, das sich in Zukunft wiederholen könnte. Es scheint daher intuitiv möglich zu sein, ein gewisses Maß an Unsicherheit mit den Gesamtwerten in Verbindung zu bringen. Ich bin mir jedoch nicht sicher, wie man in diesem Fall einen Standardfehler berechnen würde, da es sich eher um einfache Zählungen als um Mittelwerte oder Proportionen handelt.

Würde die Antwort schließlich davon abhängen, ob die Daten die Grundgesamtheit der Fälle (jeder Fall, der jemals aufgetreten ist) oder eine Zufallsstichprobe darstellen? Wenn ich mich nicht irre, ist es im Allgemeinen nicht sinnvoll, Standardfehler in der Bevölkerungsstatistik darzustellen, da es keinen Rückschluss gibt.

poisson-distribution standard-error count-data

— Halbpass
quelle

Count ist nur ein nicht normalisierter Anteil, sodass Sie st berechnen können. Proportionsfehler und "unnormalisieren" es in Zähleinheiten, wenn es für Sie Sinn macht. Sie haben Recht, dass st. Fehler gilt nur für Probe. In der Bevölkerung gibt es keinen Fehler.

— TTNPHNS

14

Die Bevölkerung ist die (hypothetische) Menge aller Menschen, bei denen das Risiko besteht, an der Krankheit zu erkranken. In der Regel sind dies alle Personen (oder eine eindeutig identifizierbare Untergruppe von Personen), die im Untersuchungsgebiet wohnen. Es ist wichtig, diese Population klar zu definieren, da sie das Ziel der Studie und aller Schlussfolgerungen aus den Daten ist.

Wenn Fälle der Krankheit unabhängig sind (was eine vernünftige Hypothese sein könnte, wenn die Krankheit nicht leicht zwischen Menschen kommuniziert werden kann und nicht durch lokale Umweltbedingungen verursacht wird) und sie selten sind, sollten die Zählungen einer Poisson-Verteilung genau folgen . Für diese Verteilung ist eine gute Schätzung der Standardabweichung die Quadratwurzel der Zählung .

$(180, 90, 45, 210)$ $(13.4, 9.5, 6.7, 14.5)$ Eventuell wird die tatsächliche Anzahl der während einer Saison beobachteten Krankheiten von dieser tatsächlichen Rate abweichen. Die Quadratwurzel der wahren (aber unbekannten!) Rate quantifiziert das Ausmaß der wahrscheinlichen Variation. Da die beobachteten Zählungen sollten nahe an den wahren Raten sein, ihre sollte Quadratwurzeln für die Quadratwurzeln der wahren Preise vernünftig Proxies sein. Diese Proxys sind genau das, was mit einem "Standardfehler" gemeint ist.

$165$ $77$ $14.5$ $77$

$9$ $(20, 10, 5, 23)$ $(4.5, 3.2, 2.2, 4.8)$ $9$ $(40, 28.5, 20, 44)$

Das ist ungefähr so weit, wie man mit diesen begrenzten Daten umgehen kann. Diese einfachen Berechnungen haben ergeben, dass:

Die Charakterisierung der Bevölkerung ist kritisch,
Die Quadratwurzel einer Zählung ist ein ungefährer Ausgangspunkt für die Beurteilung ihres Standardfehlers.
Die Quadratwurzel muss (grob) mit einem Faktor multipliziert werden, um die mangelnde Unabhängigkeit in den Krankheitsfällen widerzuspiegeln (und dieser Faktor kann in etwa mit der Größe der Krankheitscluster zusammenhängen).
Die Variation zwischen diesen Zählungen spiegelt hauptsächlich die Variation der Krankheitsrate über die Zeit und nicht die Unsicherheit (über die zugrunde liegende Poisson-Intensität) wider.

— whuber
quelle

1

Sehr nachdenkliche, gründliche Antwort! Vielen Dank.

— Halb passieren

2

Ich bin nicht scherzhaft, wenn ich frage: "Standardfehler von was?" Sie können den Mittelwert dieser vier Zahlen nehmen und den Standardfehler dieses Mittelwerts berechnen. Diese Statistik und ein daraus resultierendes Konfidenzintervall wären sinnvoll, wenn Sie der Ansicht wären, dass Sie berechtigt wären, diese vier Jahreszeiten als repräsentativ für alle Sätze von vier Jahreszeiten zu behandeln, auf die Sie verallgemeinern könnten. In dem Maße, in dem Sie dies begründen, handelt es sich bei den Daten, die Sie haben, in der Tat um eine Zufallsstichprobe der Bevölkerung. Die von Ihnen erwähnte Stichprobe würde eine zusätzliche Stichprobenebene mit sich bringen - Sie könnten es Cluster-Stichprobe nennen, wobei jedes Jahr einen Cluster darstellt.

— rolando2
quelle