Wechseln Sie von der Modellierung eines Prozesses mit einer Poisson-Verteilung zur Verwendung einer negativen Binomialverteilung?


24

Wir haben einen zufälligen Prozess, der in einem festgelegten Zeitraum mehrmals auftreten kann oder auch nicht . Wir haben einen Datenfeed von einem bereits existierenden Modell dieses Prozesses, der die Wahrscheinlichkeit für eine Anzahl von Ereignissen in der Periode liefert . Dieses bestehende Modell ist alt und wir müssen die Feed-Daten auf Schätzfehler überprüfen. Das alte Modell, das den Datenfeed erzeugt (der die Wahrscheinlichkeit des Auftretens von Ereignissen in der verbleibenden Zeit liefert ), ist ungefähr Poisson-verteilt.Tn t0t<Tnt

So prüfen für Anomalien / Fehler, lassen wir die Zeit sein , zu bleiben und X t die Gesamtzahl der Ereignisse werden in der verbleibenden Zeit auftreten t . Das alte Modell impliziert die Schätzungen P ( X tc ) . Unter der Annahme wir also: Um unsere Ereignisrate aus der Ausgabe des alten Modells (Beobachtungen ) abzuleiten , verwenden wir einen Zustandsraumansatz und modellieren die Zustandsbeziehung wie : tXttP(Xtc)P ( X tc ) = e - λ c Σ k = 0 λ k tXtPoisson(λt)& lgr; t y t y t = & lgr; t + & egr; t

P(Xtc)=eλk=0cλtkk!.
λtyt
yt=λt+εt(εtN(0,Ht)).
Wir filtern die Beobachtungen aus dem alten Modell, einen Zustandsraum [konstante Geschwindigkeit Zerfall] Modell für die Entwicklung des des gefilterten Zustand zu erhalten und Flagge eines Anomalie / Fehler in der geschätzten Ereignisfrequenz von die die Feed-Daten, wenn . E ( λ t | Y t ) E ( λ t | Y t ) < y tλtE(λt|Y.t)E(λt|Y.t)<yt

Dieser Ansatz funktioniert hervorragend , wenn es darum geht, Fehler in der geschätzten Ereignisanzahl über den gesamten Zeitraum , aber nicht so gut, wenn wir dasselbe für einen anderen Zeitraum tun möchten. where . Um dies zu umgehen, haben wir uns entschlossen, auf die negative Binomialverteilung umzuschalten, sodass wir nun annehmen und haben: \ P (X_ {t} \ leq c) = p ^ {r} \ sum_ {k = 0} ^ c (1 - p) ^ {k} \ binom {k + r -1} {r - 1}, wobei der Parameter \ lambda jetzt durch r und p ersetzt wird0 t < σ σ < 2T0t<σXt~NB(r,p)P(Xtc)=pr c Σ k=0(1-p)k ( k+r-1σ<23TXtNB(r,p)λrp

P(Xtc)=prk=0c(1-p)k(k+r-1r-1),
λrp. Dies sollte einfach zu implementieren sein, aber ich habe einige Schwierigkeiten mit der Interpretation und daher habe ich einige Fragen, bei denen ich Sie bitten würde, zu helfen:

1. Können wir in der negativen Binomialverteilung nur ? Wenn nein, warum nicht? p=λ

2. Angenommen, wir können wobei eine Funktion ist. Wie können wir richtig setzen (müssen wir Verwendung früherer Datensätze anpassen)? f r rp=f(λ)frr

3. Ist abhängig von der Anzahl der Ereignisse, die wir während eines bestimmten Prozesses erwarten?r


Anhang zum Extrahieren von Schätzungen für (und ):prp

Ich bin mir bewusst, dass wir den Maximum-Likelihood-Schätzer für und übernehmen könnten, wenn wir dieses Problem tatsächlich umkehren und die Ereignisanzahl für jeden Prozess hätten . Natürlich gibt es den Maximum Likelihood Estimator nur für Stichproben, bei denen die Stichprobenvarianz größer als der Stichprobenmittelwert ist, aber wenn dies der Fall wäre, könnten wir die Likelihood-Funktion für unabhängige, identisch verteilte Beobachtungen as: woraus wir die log-Wahrscheinlichkeitsfunktion schreiben können als: rpNk1,k2,,kN

L(r,p)=ich=1NP(kich;r,p),
l(r,p)=ich=1Nln(Γ(kich+r))-ich=1Nln(kich!)-Nln(Γ(r))+ich=1Nkichln(p)+Nrln(1-p).
Um das Maximum zu finden, nehmen wir die partiellen Ableitungen in Bezug auf und und setzen sie gleich Null: Setting und Setting wir finden: rp
rl(r,p)=ich=1Nψ(kich+r)-Nψ(r)+Nln(1-p),pl(r,p)=ich=1Nkich1p-Nr11-p.
rl(r,p)=pl(r,p)=0p=ich=1Nkich(Nr+ich=1Nkich),
rl(r,p)=ich=1Nψ(kich+r)-Nψ(r)+Nln(rr+ich=1NkichN)=0.
Diese Gleichung kann nicht in geschlossener Form mit Newton oder sogar EM für r gelöst werden. Dies ist jedoch in dieser Situation nicht der Fall. Obwohl wir die Vergangenheitsdaten verwenden könnten , um ein statisches und dies für unseren Prozess nicht wirklich von Nutzen, aber wir müssen diese Parameter zeitlich anpassen, wie wir es bei Poisson getan haben. rp

1
Warum verbinden Sie Ihre Daten nicht einfach mit einem Poisson- oder Negativ-Binomial-Regressionsmodell?
StatsStudent

1
Ich fühle mich nicht sollte es hat verwendet werden , um. In Anbetracht dessen, dass Poisson der Grenzfall für das negative Binom ist, sollte es eine Möglichkeit geben, dieses Problem auf eine ähnliche Weise zu parametrisieren, wie ich es für Poisson getan habe. Darüber hinaus tritt dieser Prozess gleichzeitig für Tausende von Differenzprozessen auf und nicht einer hat die gleiche "Ereignisrate", was bedeutet, dass eine Regressionsanalyse für diese Parameter bei jeder neuen Beobachtung für alle Live-Prozesse durchgeführt werden müsste. Das ist nicht machbar. Vielen Dank, dass Sie sich die Zeit genommen haben, meine Frage und meinen Kommentar zu lesen. Es wird sehr geschätzt ...
MoonKnight

1
(Xt|λt,rt,Gt)POichs(λtGt)(Gt|rt)Geinmmein(rt,rt)E(Gt)=1veinr(Gt)=rt-1Gt

Das ist eine große Hilfe, aber sind Sie in der Lage, dies etwas genauer zu erläutern und einige explizite Details anzugeben? Vielen Dank für Ihre Zeit ...
MoonKnight

1
Was ist mit dem Binomial anstelle des negativen Binomial? Das könnte einfacher sein. Anscombe FJ. Die Transformation von Poisson-, Binomial- und Negativ-Binomial-Daten. Biometrika. 1948; 35: 246 & ndash; 54.
Carl

Antworten:


1

Die negative Binomialverteilung ist dem Binomialwahrscheinlichkeitsmodell sehr ähnlich. Sie ist anwendbar, wenn die folgenden Annahmen (Bedingungen) zutreffen. 1) Jedes Experiment wird unter denselben Bedingungen durchgeführt, bis eine feste Anzahl von Erfolgen (z. B. C) erreicht ist. 2) Das Ergebnis jedes Experiments kann in eine der beiden Kategorien eingeteilt werden Erfolg oder Misserfolg 3) Die Erfolgswahrscheinlichkeit P ist für jedes Experiment gleich. 40Jedes Experiment ist unabhängig von allen anderen. Die erste Bedingung ist der einzige entscheidende Unterscheidungsfaktor zwischen Binom und negativem Binom


0

Die Poisson-Verteilung kann unter bestimmten Bedingungen eine vernünftige Annäherung an das Binom sein. 1) Die Erfolgswahrscheinlichkeit für jeden Versuch ist sehr gering. P -> 0 2) np = m (say) is finete Die von Statistikern am häufigsten verwendete Regel lautet, dass die Poisson eine gute Annäherung an das Binomial ist, wenn n gleich oder größer als 20 und p gleich oder kleiner als 5 ist %

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.