Wenn nicht ein Poisson, welche Verteilung ist das dann?


11

Ich habe einen Datensatz, der die Anzahl der Aktionen enthält, die von Einzelpersonen innerhalb von 7 Tagen ausgeführt wurden. Die spezifische Aktion sollte für diese Frage nicht relevant sein. Hier einige beschreibende Statistiken für den Datensatz:

Angebot0- -772Bedeuten18.2Varianz2791Anzahl der Beobachtungen696

Hier ist ein Histogramm der Daten: Aktionshistogramm

Nach der Datenquelle zu urteilen, dachte ich, dass es zu einer Poisson-Verteilung passen würde. Die mittlere ≠ Varianz und das Histogramm sind jedoch stark nach links gewichtet. Zusätzlich habe ich den goodfitTest in R durchgeführt und Folgendes erhalten:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

Die Maximum-Likelihood-Methode ergab auch einen p-Wert = 0. Unter der Annahme, dass die Nullhypothese lautet: Die Daten stimmen mit einer Poisson-Verteilung überein (die Dokumentation gibt dies nicht an), goodfitsagt der Test, dass wir die Nullhypothese ablehnen sollten, daher tun die Daten dies nicht eine Poisson-Verteilung abgleichen.

Ist diese Analyse korrekt? Wenn ja, welche Verteilung passt Ihrer Meinung nach zu diesen Daten?

χ2


Haben Sie bereits ein negatives Binomial ausprobiert? Hat das geholfen?
Ric

@ Richard, ich habe versucht, negatives Binomial, und das passte nicht. Vielen Dank für die Vorschläge. Da ich nicht herausfinden konnte, um welche Art von Verteilung es sich handelt, habe ich beschlossen, die Verteilung zu ignorieren und einen nicht parametrischen Test durchzuführen, den Mann-Whitney-U-Test.
Dcook

mean/variance=1pp

Ich glaube nicht, dass das Konzept eines Bernoulli-Prozesses in meinem Fall zutrifft. Es gibt kein Konzept von Erfolg oder Misserfolg; Die Probanden führen entweder die Aktion von Interesse aus oder sie tun es nicht. Sie versuchen nicht zu scheitern. Daher ist die Idee einer Erfolgswahrscheinlichkeit nicht sinnvoll. Es sei denn, der Prozess ist eine Zeiteinheit. Aber nichts hindert das Subjekt daran, in diesem Zeitraum mehrere Aktionen auszuführen.
Dcook

lmabda

Antworten:


8

Wenn die Varianz größer als der Mittelwert ist, spricht man von Überdispersion. Ein natürliches Modell hierfür ist die negative Binomialverteilung. Dies kann auch als Poisson-Verteilung angesehen werden, bei der der Parameter Lambda einer Gamma-Verteilung folgt. Ein erster und einfacher Schritt könnte darin bestehen, eine negative Binomialverteilung anzupassen.


5

Wenn Ihre Rohdaten nicht wie eine Poisson-Verteilung aussehen, fehlt Ihnen etwas. Vielleicht hängt die Anzahl der Aktionen von der Temperatur ab, sodass die Leute an heißen Tagen weniger tun. Dann würde eine Temperaturschwankung während Ihres Untersuchungszeitraums die Verteilung beeinflussen und sie nicht Poisson machen.

Die Anzahl der Aktionen pro Tag könnte jedoch immer noch Poisson sein, wobei der Mittelwert von der Temperatur abhängt. Wenn Sie die Temperatur jeden Tag haben, können Sie eine GLM durchführen, bei der die Anzahl der Aktionen abhängig von der Temperatur als Poisson-Variable zurückgeführt wird. Wenn das gut passt, ist die Arbeit erledigt.

Wenn Sie keine möglichen erklärenden Variablen haben, können Sie nur sagen, dass "etwas anderes vor sich geht - die Anzahl der Aktionen stammt nicht aus unabhängigen Poisson-Stichproben" - dh Ihre Nullhypothese ablehnen.

Es gibt verteilungsfreie Tests, mit denen gepaarte Beobachtungen mithilfe von Rankings usw. verglichen werden können. Normalerweise führen sie eine große Anzahl von Permutationen durch und berechnen eine Teststatistik ...


4

Noch etwas: Sie sollten Ausreißer auch in Zähldaten untersuchen. Sie haben eine Zählung bei 400 und dann nichts bis 800. Das passt wahrscheinlich nicht zu den gängigen Modellen.


1

Sie scheinen die Anzahl der Nullereignisse zu zählen. Wenn ja, können Sie ein ZIP-Modell (oder eine Hürde) in Betracht ziehen. Eine Übersicht finden Sie unter Regressionsmodelle für Zähldaten in R von Zeileis et al.

Zusammenfassend lässt sich sagen, dass diese Methoden die Nullzählungen getrennt von den übrigen Zählungen modellieren, was in Ihrem Fall nützlich sein könnte.

Beziehen Sie sich auf das psclPaket und die zeroinfl()und hurdle()Funktionen.


1

Ich vermute, dass Ihr Histogramm irreführend ist. Wenn Sie etwas mehr als 300 Beobachtungen haben, die gleichmäßig über den Bereich von 0 bis 50, etwa 320 gleichmäßig über den Bereich von 50 bis 100 und 50 oder mehr über 100 verteilt sind, sollte Ihr Mittelwert wesentlich größer als 18,2 sein.

Wenn die Daten im Bereich von 0 bis 50 nicht gleichmäßig verteilt sind, sondern nahe Null konzentriert sind, ist es überraschend, mehr im Bereich von 50 bis 100 als im Bereich von 0 bis 50 zu sehen.

Vielleicht haben Sie eine Mischung aus Verteilungen. Ich bezweifle, dass irgendjemand viel damit anfangen kann, ohne die tatsächlichen 696 Beobachtungen und insbesondere ohne mehr über den Kontext zu wissen. Ist jede der 696 Beobachtungen ein Individuum und ist die Antwort die Anzahl der Maßnahmen, die jedes Individuum ergriffen hat? Wenn ja, gibt es verschiedene Arten von Personen in den Daten?

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.