Mit "Anpassen der Verteilung an die Daten" meinen wir, dass eine gewisse Verteilung (dh eine mathematische Funktion) als Modell verwendet wird , das verwendet werden kann, um die empirische Verteilung Ihrer Daten zu approximieren. Wenn Sie die Verteilung an die Daten anpassen, müssen Sie die Verteilungsparameter aus den Daten ableiten. Sie können dies tun, indem Sie eine Software verwenden, die dies automatisch für Sie erledigt (z. B. fitdistrplus
in R), oder indem Sie diese von Hand aus Ihren Daten berechnen, z. B. mit maximaler Wahrscheinlichkeit (siehe entsprechenden Eintrag in Wikipedia zur Poisson-Verteilung ).
Auf dem Diagramm unten sehen Sie Ihre Daten mit angepasster Poisson-Verteilung. Wie Sie sehen können, passt die Linie nicht perfekt, da es sich nur um eine Annäherung handelt.
Einer der Ansätze für dieses Problem besteht unter anderem darin, die maximale Wahrscheinlichkeit zu verwenden . Erinnern Sie sich daran, dass die Wahrscheinlichkeit eine Funktion der Parameter für die festen Daten ist. Durch Maximieren dieser Funktion können wir "wahrscheinlichste" Parameter finden, wenn wir die Daten haben, d. H.
L ( λ | x1, … , X.n) = ∏ichf( xich| λ)
wobei in Ihrem Fall die Poisson-Wahrscheinlichkeitsmassenfunktion ist. Der direkte numerische Weg, um ein geeignetes zu finden, wäre die Verwendung eines Optimierungsalgorithmus. Dazu definieren Sie zuerst die Wahrscheinlichkeitsfunktion und bitten dann den Algorithmus, den Punkt zu finden, an dem die Funktion ihr Maximum erreicht:λfλ
# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum
Sie können etwas Seltsames an diesem Code bemerken: Ich multipliziere dpois()
mit y
. Die Daten, die Sie haben, werden in Form einer Tabelle bereitgestellt, in der für jeden Wert von die zugehörigen Zählwerte , während die Wahrscheinlichkeitsfunktion eher als Rohdaten als als solche Tabellen definiert ist. Sie könnten die Rohdaten aus diesen Werten neu erstellen, indem Sie jedes der genau mal (dh in R) wiederholen und dies als Eingabe für Ihre Statistiksoftware verwenden, aber Sie könnten einen klügeren Ansatz wählen. Die Wahrscheinlichkeit ist ein Produkt von . Das Multiplizieren von mit identischen -exakten Zeiten ist dasselbe wie Nehmeny i x i y i f ( x i | λ ) f ( x i | λ ) x i y i y i f ( x i | λ ) y i ∏ i f ( x i | λ ) y i ∑ i log f ( x i | λ ) × y ixichyixiyirep(x, y)
f(xi|λ)f(xi|λ)xiyiyi te Potenz davon: . Hier maximieren wir die Log-Wahrscheinlichkeit (siehe hier, warum wir Log nehmen ), so dass zu: . Auf diese Weise haben wir die Wahrscheinlichkeitsfunktion für tabellarische Daten erhalten.f(xi|λ)yi∏if(xi|λ)yi∑ilogf(xi|λ)×yi
Es gibt jedoch einen einfacheren Weg. Wir wissen, dass der empirische Mittelwert von der Maximum-Likelihood-Schätzer von (dh er ermöglicht es uns, einen solchen Wert von zu schätzen, der die Wahrscheinlichkeit maximiert). Anstatt also eine Optimierungssoftware zu verwenden, können wir einfach den Mittelwert berechnen. Da Sie Daten in Form einer Tabelle mit Zählwerten haben, besteht der direkteste Weg darin, einfach den gewichteten Mittelwert des gewichteten Mittelwerts von , wobei als Gewichte verwendet werden.xλλxiyi
mx <- sum(x*(y/sum(y)))
Dies führt zu identischen Ergebnissen, als hätten Sie aus den Rohdaten das arithmetische Mittel berechnet. Sowohl die Maximierung der Wahrscheinlichkeit mithilfe des Optimierungsalgorithmus als auch die Ermittlung des Mittelwerts führen zu fast genau den gleichen Ergebnissen:
> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127
So ‚s sind nicht überall in Ihre Notizen erwähnt , wie sie künstlich als eine Möglichkeit geschaffen werden , die Speicherung dieser Daten in aggregierter Form (als Tabelle), und nicht alle die Auflistung roh ‘ s. Wie oben gezeigt, können Sie Daten in diesem Format nutzen.y4075x
Mit den obigen Verfahren können Sie das "am besten passende" diese Weise passen Sie die Verteilung an die Daten an - indem Sie solche Parameter der Verteilung finden, die sie an die empirischen Daten anpassen .λ
Sie haben kommentiert, dass es für Sie immer noch unklar ist, warum als Gewichte betrachtet werden. Das arithmetische Mittel kann als Sonderfall des gewichteten Mittelwerts betrachtet werden, bei dem alle Gewichte gleich und gleich :yi1/N
x1+⋯+xnN=1N(x1+⋯+xn)=1Nx1+⋯+1Nxn
Überlegen Sie nun, wie Ihre Daten gespeichert werden. und bedeutet, dass Sie vier Fünfer haben. , und bedeutet usw. Wenn Sie den Mittelwert berechnen müssen Sie sie zuerst summieren, also: . Dies führt dazu, dass Zählungen als Gewichte für den gewichteten Mittelwert verwendet werden, was genau dem arithmetischen Mittelwert mit Rohdaten entsprichty 6 =x6=5y6=4x6={5,5,5,5}x7=6y7=2x7={6,6}5+5+5+5=5×4=x6×y6
x1y1+⋯+xnyny1+⋯+yn=x1y1N+⋯+xnynN=x1N+⋯+x1Ny1 times+⋯+xnN+⋯+xnNyn times
wobei . Die gleiche Idee wurde auf die Wahrscheinlichkeitsfunktion angewendet, die durch Zählungen gewichtet wurde. Was hier irreführend sein könnte, ist, dass wir in einigen Fällen , um den ten beobachteten Wert von , während in Ihrem Fall ein spezifischer Wert von , der mal beobachtet wurde. Wie bereits erwähnt, ist dies nur eine alternative Methode zum Speichern derselben Daten.x i i x x i x y iN=∑iyixiiXxiXyi