Poisson-Regression bei großen Datenmengen: Ist es falsch, die Maßeinheit zu ändern?


17

Aufgrund der Fakultät in einer Poisson-Verteilung wird es unpraktisch, Poisson-Modelle (beispielsweise unter Verwendung der maximalen Wahrscheinlichkeit) zu schätzen, wenn die Beobachtungen groß sind. Wenn ich zum Beispiel versuche, ein Modell zu schätzen, um die Anzahl der Selbstmorde in einem bestimmten Jahr zu erklären (es sind nur jährliche Daten verfügbar) und zu sagen, dass es jedes Jahr Tausende von Selbstmorden gibt, ist es falsch, Selbstmorde in Hunderten auszudrücken , so dass 2998 29,98 ~ = 30 wäre? Mit anderen Worten, ist es falsch, die Maßeinheit zu ändern, um die Daten verwaltbar zu machen?

Antworten:


14

Wenn Sie mit einer Poisson-Verteilung mit großen Werten von \ lambda (dessen Parameter) arbeiten, wird häufig eine normale Annäherung an die Poisson-Verteilung verwendet.

Da diese Seite erwähnt, ist es in Ordnung, die normale Näherung zu verwenden, wenn \ lambda über 20 wird, und die Näherung verbessert sich, wenn \ lambda noch höher wird.

Die Poisson-Verteilung wird nur über den Zustandsraum definiert, der aus den nicht-negativen Ganzzahlen besteht. Durch Neuskalieren und Runden werden Ihre Daten also ungerade Dinge erhalten.

Mit den normalen ca. für große Poisson-Statistiken ist sehr häufig.


6

Im Falle von Poisson ist es schlecht, da Zählungen Zählungen sind - ihre Einheit ist eine Einheit. Wenn Sie jedoch eine fortgeschrittene Software wie R verwenden würden, würden die Poisson-Handhabungsfunktionen solche großen Zahlen kennen und einige numerische Tricks verwenden, um sie zu handhaben.

Natürlich stimme ich zu, dass eine normale Annäherung ein weiterer guter Ansatz ist.


3

Die meisten statistischen Pakete haben eine Funktion, um den natürlichen Logarithmus des Faktors direkt zu berechnen (z. B. die Funktion lfactorial () in R, die Funktion lnfactorial () in Stata). Auf diese Weise können Sie den konstanten Term in die Protokollwahrscheinlichkeit aufnehmen, wenn Sie möchten.


Außerdem gilt n!= Gamma(n+1)für n> = 0. Suchen Sie also nach einer Funktion, die aufgerufen wird, Gammawenn Sie die Fakultät berechnen müssen (oder log Gamma, wenn Sie die log-Wahrscheinlichkeit berechnen)
Andre Holzner

3

Das kannst du leider nicht. Wie @Baltimark feststellt, hat die Verteilung mit großem Lambda eine normalere Form (symmetrisch), und wenn sie verkleinert wird, ist sie keine Giftverteilung mehr. Versuchen Sie den folgenden Code in R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Das Ergebnis ist unten:

Bildbeschreibung hier eingeben

Sie können sehen, dass sich die verkleinerte Poisson (rote Linie) von der Poisson-Verteilung vollständig unterscheidet.


1

Sie können den Faktor einfach ignorieren, wenn Sie die maximale Wahrscheinlichkeit verwenden. Hier ist die Begründung für Ihr Beispiel für Selbstmorde. Lassen:

λ: Geben Sie die erwartete Anzahl an Selbstmorden pro Jahr an

k i : Geben Sie die Anzahl der Selbstmorde im Jahr i an.

Dann würden Sie die Log-Wahrscheinlichkeit wie folgt maximieren:

LL = ∑ (k i log (λ) - λ - k i !)

Das Maximieren des Obigen entspricht dem Maximieren des Folgenden als k i ! ist eine Konstante:

LL ' = ∑ (k i log (λ) - λ)

Könnte erklären, warum die Fakultät ein Problem ist? Vermisse ich etwas?


Sie verpassen nichts, wenn Sie lediglich versuchen, den Parameter aus einer Reihe von Beobachtungen abzuschätzen. Das war definitiv die Hauptidee der Frage des OP. Sie fragte jedoch auch allgemein (wenn nicht rigoros), "wie man Poisson-Modelle schätzt". Vielleicht möchte sie den Wert des PDF an einer bestimmten Stelle wissen. In diesem Fall beträgt die normale ca. ist wahrscheinlich besser als die Skalierung des Parameters und der Beobachtungen um 100 oder was auch immer, wenn die Beobachtungen groß genug sind, um die Berechnung der Fakultät unpraktisch zu machen.
Baltimark

1
@Srikant, Sie haben Recht, um die Parameter abzuschätzen, bei denen die Fakultät keine Rolle spielt, aber im Allgemeinen möchten Sie den Wert der Wahrscheinlichkeit für ein bestimmtes Modell, und Sie müssten die Fakultät dafür verwenden. Auch für Hypothesentests (zB Likelihood Ratio Test) benötigen Sie den Wert der Likelihood.
Vivi

@Baltimark: ja, ich möchte generell wissen, ob es gültig ist, die Maßeinheit von Poisson zu ändern. Mir wurde diese Frage gestellt und ich wusste nicht, was ich sagen sollte.
Vivi

@Vivi: Ich bin mir nicht sicher, warum Sie die Wahrscheinlichkeit mit k_i berechnen möchten! Wie in den meisten Anwendungen enthalten (z. B. Likelihood-Ratio-Test, Bayes'sche Schätzung), spielt die Konstante keine Rolle. Ich glaube auf keinen Fall, dass Sie die Skalierung nach Ihren Vorschlägen ändern können. Wenn ich mich anders fühle, werde ich meine Antwort aktualisieren.

@Srikant, ich verstehe Ihren Standpunkt, aber einige Software (zum Beispiel Eviews) enthalten dies standardmäßig, und große Zahlen sind ein Problem, das Ihnen gefällt oder nicht. Ich glaube, ich war wirklich hinter einer Erklärung her, warum man es kann oder nicht, anstatt es zu umgehen, aber die Diskussion war trotzdem interessant und lehrreich :)
Vivi
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.