Wir haben einen zufälligen Prozess, der in einem festgelegten Zeitraum mehrmals auftreten kann oder auch nicht . Wir haben einen Datenfeed von einem bereits existierenden Modell dieses Prozesses, der die Wahrscheinlichkeit für eine Anzahl von Ereignissen in der Periode liefert . Dieses bestehende Modell ist alt und wir müssen die Feed-Daten auf Schätzfehler überprüfen. Das alte Modell, das den Datenfeed erzeugt (der die Wahrscheinlichkeit des Auftretens von Ereignissen in der verbleibenden Zeit liefert ), ist ungefähr Poisson-verteilt.n t
So prüfen für Anomalien / Fehler, lassen wir die Zeit sein , zu bleiben und X t die Gesamtzahl der Ereignisse werden in der verbleibenden Zeit auftreten t . Das alte Modell impliziert die Schätzungen P ( X t ≤ c ) . Unter der Annahme wir also: Um unsere Ereignisrate aus der Ausgabe des alten Modells (Beobachtungen ) abzuleiten , verwenden wir einen Zustandsraumansatz und modellieren die Zustandsbeziehung wie : P ( X t ≤ c ) = e - λ c Σ k = 0 λ k t& lgr; t y t y t = & lgr; t + & egr; t
Dieser Ansatz funktioniert hervorragend , wenn es darum geht, Fehler in der geschätzten Ereignisanzahl über den gesamten Zeitraum , aber nicht so gut, wenn wir dasselbe für einen anderen Zeitraum tun möchten. where . Um dies zu umgehen, haben wir uns entschlossen, auf die negative Binomialverteilung umzuschalten, sodass wir nun annehmen und haben: \ P (X_ {t} \ leq c) = p ^ {r} \ sum_ {k = 0} ^ c (1 - p) ^ {k} \ binom {k + r -1} {r - 1}, wobei der Parameter \ lambda jetzt durch r und p ersetzt wird0 ≤ t < σ σ < 2Xt~NB(r,p)P(Xt≤c)=pr c Σ k=0(1-p)k ( k+r-1λrp
1. Können wir in der negativen Binomialverteilung nur ? Wenn nein, warum nicht?
2. Angenommen, wir können wobei eine Funktion ist. Wie können wir richtig setzen (müssen wir Verwendung früherer Datensätze anpassen)? f r r
3. Ist abhängig von der Anzahl der Ereignisse, die wir während eines bestimmten Prozesses erwarten?
Anhang zum Extrahieren von Schätzungen für (und ):p
Ich bin mir bewusst, dass wir den Maximum-Likelihood-Schätzer für und übernehmen könnten, wenn wir dieses Problem tatsächlich umkehren und die Ereignisanzahl für jeden Prozess hätten . Natürlich gibt es den Maximum Likelihood Estimator nur für Stichproben, bei denen die Stichprobenvarianz größer als der Stichprobenmittelwert ist, aber wenn dies der Fall wäre, könnten wir die Likelihood-Funktion für unabhängige, identisch verteilte Beobachtungen as: woraus wir die log-Wahrscheinlichkeitsfunktion schreiben können als: