Ich bin ein Doktorand. Ich arbeite mit einem Datensatz von Zähldaten. Es gibt eine Anzahl von Benutzern, die an einem n-way Echtzeit-Chat-Gespräch beteiligt sind. Die Anzahl der Benutzer reicht von 1 bis 6 und das Set enthält ca. 300 Daten.
Meine anfängliche Motivation war zu verstehen, ob die Daten zu einer Poisson-Verteilung passen würden. Ich dachte, wenn eine gute Übereinstimmung gefunden würde, könnte ich dieses Ergebnis für weitere Schlussfolgerungen verwenden.
Um es kurz zu machen, ich habe versucht, die Daten anzupassen, und die Anpassung schlägt bei einem Signifikanzniveau von 0,05 fehl. Somit kann ich meine Hypothese ablehnen (dass eine Poisson-Verteilung verwendet werden kann, um den Datensatz zu approximieren).
Wenn ich mir ein Dichtediagramm anschaue, glaube ich, dass der Grund, warum es eine so schlechte Anpassung gibt, darin besteht, dass "zu viele aufgezeichnete Werte für 2 Benutzer vorliegen. Eine Poisson-Verteilung würde besser mit weniger Werten in diesem Bin passen Daten selbst Ich habe keinen Grund zu der Annahme, dass es Ausreißer gibt (dh Gespräche mit 2 Benutzern, die einem höheren oder niedrigeren Bin zugeordnet würden).
users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)
tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 69.37891 5 1.379945e-13
In der Statistik auf Undergrad-Ebene wurde mir beigebracht, dass Zähldaten durch eine Poisson-Verteilung modelliert werden können, aber sie haben nie gelernt, was zu tun ist, wenn Zähldaten nicht passen.
Ich bin nicht an die Prämisse gebunden, dass meine Zähldaten zu Poisson (oder einer anderen Distribution) passen sollten. Ich wollte jedoch die Wirksamkeit untersuchen, ob ich meinen Datensatz transformieren und an eine andere diskrete Verteilung anpassen oder stattdessen einen anderen Ansatz (KDE) ausprobieren sollte. Oder sollte ich einfach zu dem Schluss kommen, dass meine Daten nicht gut zu Poisson (oder einer anderen Distribution) passen, und es dabei belassen?
users-1
eine gute Anpassung für eine Poisson-Verteilung (die eine Form der Hürde darstellt) ist. Ich vermute, dass beim Umgang mit unterverteilten Daten ein vernünftiger Ansatz angewendet werden muss.
users-1