Wie finde ich Schätzungen der maximalen Wahrscheinlichkeit eines ganzzahligen Parameters?

HW Frage :

$x_1,x_2,\ldots,x_n$ sind unabhängige Gaußsche Variablen mit Mittelwert und Varianz . Definiere wobei unbekannt ist. Wir sind an einer Schätzung von aus interessiert . $\mu$ $\sigma^2$ $y = \sum_{n=1}^{N} x_n$ $N$ $N$ $y$

ein. Wenn bestimmen Sie seine Vorspannung und Varianz. $\hat N_1 = y/\mu$

b. Wenn bestimmen Sie seine Vorspannung und Varianz. $\hat N_2 = y^2/\sigma^2$

Ignorieren der Anforderung, dass eine Ganzzahl sein muss $N$

c. Gibt es einen effizienten Schätzer (siehe und )? $\mu = 0$ $\mu \ne 0$

d. Finden Sie die maximale Wahrscheinlichkeitsschätzung von aus . $N$ $y$

e. Finden Sie CRLB von aus . $N$ $y$

f. Erreicht der mittlere quadratische Fehler der Schätzer CRLB, wenn ? $\hat N_1,\hat N_2$ $N\to \infty$

Wenn mich jemand zur Lösung des folgenden Problems führen könnte, wäre es großartig.

Vielen Dank,

Nadav

maximum-likelihood

— Nadav Talmon
quelle

Wie ist die Verteilung von

Y = \sum_{i} X_{i} ?

$Y = \sum_i X_i\,?$

— BruceET

Es sagt nicht. Ich nehme an, es wird auch als Gaußsche Variable verteilt, da es sich um eine Summe von Gaußschen Variablen handelt

— Nadav Talmon

Wenn normal sind, sind und normal. Was sind Mittelwert und Varianz von Damit sollte das Problem behoben sein. // In der Praxis ist es wahrscheinlich sinnvoll, auf eine ganze Zahl zu runden . Das könnte einen kleinen Unterschied im Mittelwert und in der Varianz bewirken. Wie viel Unterschied Sie durch Simulation herausfinden können.

X_{i}

$X_i$

Y = \sum_{I} X i

$Y = \sum_I Xi$

\hat{N} = Y / μ

$\hat N = Y/\mu$

\hat{N} ?

$\hat N\,?$

\hat{N}

$\hat N$

— BruceET

Wäre der nicht der ? Gleiche Logik für den Mittelwert

V a r (N_{e s t i m a t e d})

$Var(N_{estimated})$

V a r (y) / μ

$Var(y)/\mu$

— Nadav Talmon

Da ein Integral ist, können Sie Calculus nicht (direkt) verwenden, um das Minimum zu finden. Wenn dies Ihr Hindernis ist, stellen Sie bitte Ihre Arbeit in Ihrer Frage vor, damit wir uns darauf konzentrieren können, wo Sie tatsächlich Hilfe benötigen.

N

$N$

— whuber

Antworten:

Sie haben gut damit begonnen, einen Ausdruck für die Wahrscheinlichkeit aufzuschreiben. Das ist einfacher zu erkennen $Y,$ ist die Summe von $N$ unabhängig Normal $(\mu,\sigma^2)$ Variablen, hat eine Normalverteilung mit Mittelwert $N\mu$ und Varianz $N\sigma^2,$ woher ist seine Wahrscheinlichkeit

L (y, N) = \frac{1}{\sqrt{2 π N σ^{2}}} \exp (- \frac{(y - N μ)^{2}}{2 N σ^{2}}) .

$\mathcal{L}(y,N) = \frac{1}{\sqrt{2\pi N\sigma^2}} \exp\left(-\frac{(y-N\mu)^2}{2N\sigma^2}\right).$

Lassen Sie uns mit seinem negativen Logarithmus arbeiten $\Lambda = -\log \mathcal{L},$ deren Minima den Maxima der Wahrscheinlichkeit entsprechen:

2 Λ (N) = \log (2 π) + \log (σ^{2}) + \log (N) + \frac{(y - N μ)^{2}}{N σ^{2}} .

$2\Lambda(N) = \log(2\pi) + \log(\sigma^2) + \log(N) + \frac{(y-N\mu)^2}{N\sigma^2}.$

Wir müssen alle ganzen Zahlen finden , die diesen Ausdruck minimieren. Stell dir für einen Moment vor, dass $N$ könnte eine positive reelle Zahl sein. So wie, $2\Lambda$ ist eine kontinuierlich differenzierbare Funktion von $N$ mit Derivat

\frac{d}{d N.} 2 Λ (N.) = \frac{1}{N.} - - \frac{(y - - N. μ)^{2}}{σ^{2} {N.}^{2}} - - \frac{2 μ (y - - N. μ)}{N. σ^{2}} .

$\frac{d}{dN} 2\Lambda(N) = \frac{1}{N} - \frac{(y-N\mu)^2}{\sigma^2N^2} - \frac{2\mu(y-N\mu)}{N\sigma^2}.$

Setzen Sie dies mit Null gleich, um nach kritischen Punkten zu suchen, die Nenner zu löschen und eine kleine Algebra durchzuführen, um das Ergebnis zu vereinfachen

\begin{matrix} (1) & μ^{2} {N.}^{2} + σ^{2} N. - - y^{2} = 0 \end{matrix}

$\mu^2 N^2 + \sigma^2 N -y^2 = 0\tag{1}$

mit einer einzigartigen positiven Lösung (wann $\mu\ne 0$ )

\hat{N.} = \frac{1}{2 μ^{2}} (- - σ^{2} + \sqrt{σ^{4} + 4 μ^{2} y^{2}}) .

$\hat N = \frac{1}{2\mu^2}\left(-\sigma^2 + \sqrt{\sigma^4 + 4\mu^2 y^2}\right).$

Es ist einfach, dies als zu überprüfen $N$ nähert sich $0$ oder wird groß, $2\Lambda(N)$ wächst groß, daher wissen wir, dass es kein globales Minimum in der Nähe gibt $N\approx 0$ noch in der Nähe $N\approx \infty.$ Damit bleibt nur der eine kritische Punkt, den wir gefunden haben und der daher das globale Minimum sein muss. Außerdem, $2\Lambda$ muss abnehmen als $\hat N$ wird von unten oder oben angefahren. Somit,

Die globalen Minima von $\Lambda$ muss auf beiden Seiten von zu den beiden ganzen Zahlen gehören $\hat N.$

Dies bietet ein effektives Verfahren zum Ermitteln des Maximum-Likelihood-Schätzers: Es ist entweder der Boden oder die Decke von $\hat N$ (oder gelegentlich beide !), also rechnen Sie $\hat N$ und wählen Sie einfach, welche dieser ganzen Zahlen macht $2\Lambda$ kleinste.

Lassen Sie uns eine Pause einlegen, um zu überprüfen, ob dieses Ergebnis sinnvoll ist. In zwei Situationen gibt es eine intuitive Lösung:

Wann $\mu$ ist viel größer als $\sigma$ , $Y$ wird in der Nähe sein $\mu,$ woher eine anständige Schätzung von $N$ wäre einfach $|Y/\mu|.$ In solchen Fällen können wir die MLE durch Vernachlässigung approximieren $\sigma^2,$ geben (wie erwartet)
$\hat{N} = \frac{1}{2 μ^{2}} (- σ^{2} + \sqrt{σ^{4} + 4 μ^{2} y^{2}}) \approx \frac{1}{2 μ^{2}} \sqrt{4 μ^{2} y^{2}} = | \frac{y}{μ} | .$ $\hat N = \frac{1}{2\mu^2}\left(-\sigma^2 + \sqrt{\sigma^4 + 4\mu^2 y^2}\right) \approx \frac{1}{2\mu^2}\sqrt{4\mu^2 y^2} = \left|\frac{y}{\mu}\right|.$
Wann $\sigma$ ist viel größer als $\mu,$ $Y$ könnte überall verteilt sein, aber im Durchschnitt $Y^2$ sollte in der Nähe sein $\sigma^2,$ woher eine intuitive Schätzung von $N$ wäre einfach $y^2/\sigma^2.$ In der Tat zu vernachlässigen $\mu$ in Gleichung $(1)$ gibt die erwartete Lösung
$\hat{N} \approx \frac{y^{2}}{σ^{2}} .$ $\hat N \approx \frac{y^2}{\sigma^2}.$

In beiden Fällen stimmt die MLE mit der Intuition überein, was darauf hinweist, dass wir sie wahrscheinlich richtig ausgearbeitet haben. Die interessanten Situationen treten dann auf, wenn $\mu$ und $\sigma$ sind von vergleichbarer Größe. Intuition kann hier wenig helfen.

Um dies weiter zu untersuchen, habe ich drei Situationen simuliert, in denen $\sigma/\mu$ ist $1/3,$ $1,$ oder $3.$ Es ist egal was $\mu$ ist (solange es ungleich Null ist), also habe ich genommen $\mu=1.$ In jeder Situation habe ich einen Zufall generiert $Y$ für die Fälle $N=2,4,8,16,$ dies unabhängig fünftausend Mal tun.

Diese Histogramme fassen die MLEs von zusammen $N$ . Die vertikalen Linien markieren die wahren Werte von $N$ .

Im Durchschnitt scheint die MLE ungefähr richtig zu sein. Wann $\sigma$ Ist der MLE relativ klein, ist er in der Regel genau: Das zeigen die schmalen Histogramme in der oberen Reihe. Wann $\sigma \approx |\mu|,$ Die MLE ist ziemlich unsicher. Wann $\sigma \gg |\mu|,$ die MLE kann oft sein $\hat N=1$ und manchmal kann mehrmals sein $N$ (besonders wenn $N$ ist klein). Diese Beobachtungen stimmen mit den Vorhersagen der vorhergehenden intuitiven Analyse überein.

Der Schlüssel zur Simulation ist die Implementierung des MLE. Es muss gelöst werden $(1)$ sowie auswerten $\Lambda$ für gegebene Werte von $Y,$ $\mu,$ und $\sigma.$ Die einzige neue Idee, die hier reflektiert wird, ist das Überprüfen der ganzen Zahlen auf beiden Seiten von $\hat N.$ Die letzten beiden Zeilen der Funktion fführen diese Berechnung mit Hilfe der lambdaBewertung der Protokollwahrscheinlichkeit durch.

lambda <- Vectorize(function(y, N, mu, sigma) {
  (log(N) + (y-mu*N)^2 / (N * sigma^2))/2
}, "N") # The negative log likelihood (without additive constant terms)

f <- function(y, mu, sigma) {
  if (mu==0) {
    N.hat <- y^2 / sigma^2
  } else {
    N.hat <- (sqrt(sigma^4 + 4*mu^2*y^2) - sigma^2) / (2*mu^2)
  }
  N.hat <- c(floor(N.hat), ceiling(N.hat))
  q <- lambda(y, N.hat, mu, sigma)
  N.hat[which.min(q)]
} # The ML estimator

— whuber
quelle

Ich hätte mir keine bessere Erklärung wünschen können. Vielen Dank, Sie haben buchstäblich alles abgedeckt!

— Nadav Talmon

Jetzt muss ich sagen, ob es einen effizienten Schätzer gibt (z

μ! = 0

$\mu != 0$ und

μ = 0

$\mu = 0$ ). Ich weiß, dass ein Schätzer, der unvoreingenommen ist und die CRLB beantwortet, effizienter ist. Ich weiß, dass es unvoreingenommen ist, aber die zweite Ableitung der L-Funktion zu nehmen scheint mir nichts zu bringen.

— Nadav Talmon

Ignoriere die Tatsache, dass

N

$N$ ist ganzheitlich: Das heißt, die Schätzung darf das globale Minimum der negativen Log-Likelihood-Funktion sein. Weiter von dort.

— whuber

Ich habe die von Ihnen vorgeschlagene Ableitung der negativen Log-Likelihood-Funktion verwendet und versucht, den folgenden Ausdruck zu erhalten:

C (N) \times (g (y) - N)

$C(N)\times(g(y)-N)$ Ich habe das geschafft

μ = 0

$\mu = 0$ aber nicht an

μ! = 0

$\mu != 0$ Deshalb hatten wir eine einzigartige positive Lösung

μ! = 0

$\mu != 0$ ?

— Nadav Talmon

Das glaube ich nicht. Ich finde es einfacher, das Problem in Bezug auf neu zu parametrisieren

θ = 1 / N,

$\theta=1/N,$ denn dann ist die Ableitung der logarithmischen Wahrscheinlichkeit eine quadratische Funktion von

θ .

$\theta.$

— whuber

Die Methode, die Whuber in seiner ausgezeichneten Antwort verwendet hat, ist ein gängiger Optimierungs- "Trick", bei dem die Wahrscheinlichkeitsfunktion erweitert wird, um reale Werte von zuzulassen $N$ und dann Verwenden der Konkavität der logarithmischen Wahrscheinlichkeit, um zu zeigen, dass der diskrete Maximierungswert einer der diskreten Werte auf beiden Seiten eines kontinuierlichen Optimas ist. Dies ist eine häufig verwendete Methode bei diskreten MLE-Problemen, die eine konkave Log-Likelihood-Funktion beinhalten. Sein Wert liegt in der Tatsache, dass es normalerweise möglich ist, einen einfachen Ausdruck in geschlossener Form für die kontinuierlichen Optima zu erhalten.

Der Vollständigkeit halber werde ich Ihnen in dieser Antwort eine alternative Methode zeigen, die diskrete Berechnungen unter Verwendung des Vorwärtsdifferenzoperators verwendet . Die Log-Likelihood-Funktion für dieses Problem ist die diskrete Funktion:

ℓ_{y} (N.) = - - \frac{1}{2} [\ln (2 π) + \ln (σ^{2}) + \ln (N.) + \frac{(y - - N. μ)^{2}}{N. σ^{2}}]] zum N. \in N. .

$\ell_y(N) = -\frac{1}{2} \Bigg[ \ln (2 \pi) + \ln (\sigma^2) + \ln (N) + \frac{(y-N\mu)^2}{N\sigma^2} \Bigg] \quad \quad \quad \text{for } N \in \mathbb{N}.$

Der erste Vorwärtsunterschied der Log-Wahrscheinlichkeit ist:

\begin{aligned} Δ ℓ_{y} (N) & = - \frac{1}{2} [\ln (N + 1) - \ln (N) + \frac{(y - N μ - μ)^{2}}{(N + 1) σ^{2}} - \frac{(y - N μ)^{2}}{N σ^{2}}] \\ = - \frac{1}{2} [\ln (\frac{N + 1}{N}) + \frac{N (y - N μ - μ)^{2} - (N + 1) (y - N μ)^{2}}{N (N + 1) σ^{2}}] \\ = - \frac{1}{2} [\ln (\frac{N + 1}{N}) + \frac{[N (y - N μ)^{2} - 2 N (y - N μ) μ + N μ^{2}] - [N (y - N μ)^{2} + (y - N μ)^{2}]}{N (N + 1) σ^{2}}] \\ = - \frac{1}{2} [\ln (\frac{N + 1}{N}) - \frac{(y + N μ) (y - N μ) - N μ^{2}}{N (N + 1) σ^{2}}] . \end{aligned}

$\begin{equation} \begin{aligned} \Delta \ell_y(N) &= -\frac{1}{2} \Bigg[ \ln (N+1) - \ln (N) + \frac{(y-N\mu - \mu)^2}{(N+1)\sigma^2} - \frac{(y-N\mu)^2}{N\sigma^2} \Bigg] \\[6pt] &= -\frac{1}{2} \Bigg[ \ln \Big( \frac{N+1}{N} \Big) + \frac{N(y-N\mu - \mu)^2 - (N+1)(y-N\mu)^2}{N(N+1)\sigma^2} \Bigg] \\[6pt] &= -\frac{1}{2} \Bigg[ \ln \Big( \frac{N+1}{N} \Big) + \frac{[N(y-N\mu)^2 -2N(y-N\mu) \mu + N \mu^2] - [N(y-N\mu)^2 + (y-N\mu)^2]}{N(N+1)\sigma^2} \Bigg] \\[6pt] &= -\frac{1}{2} \Bigg[ \ln \Big( \frac{N+1}{N} \Big) - \frac{(y + N \mu)(y-N\mu) - N \mu^2}{N(N+1)\sigma^2} \Bigg]. \\[6pt] \end{aligned} \end{equation}$

Mit ein bisschen Algebra kann gezeigt werden, dass die zweite Vorwärtsdifferenz ist:

\begin{aligned} Δ^{2} ℓ_{y} (N) & = - \frac{1}{2} [\ln (\frac{N + 2}{N}) + \frac{2 N (N + 1) μ^{2} + 2 (y + N μ) (y - N μ)}{N (N + 1) (N + 2) σ^{2}}] < 0. \end{aligned}

$\begin{equation} \begin{aligned} \Delta^2 \ell_y(N) &= -\frac{1}{2} \Bigg[ \ln \Big( \frac{N+2}{N} \Big) + \frac{2 N (N+1) \mu^2 + 2(y + N \mu)(y-N\mu)}{N(N+1)(N+2)\sigma^2} \Bigg] < 0. \\[6pt] \end{aligned} \end{equation}$

Dies zeigt, dass die Log-Likelihood-Funktion konkav ist, also der kleinste Maximierungspunkt $\hat{N}$ wird sein:

\begin{aligned} \hat{N} & = min {N \in N | Δ ℓ_{y} (N) ⩽ 0} \\ = min {N \in N | \ln (\frac{N + 1}{N}) ⩾ \frac{(y + N μ) (y - N μ) - N μ^{2}}{N (N + 1) σ^{2}}} . \end{aligned}

$\begin{equation} \begin{aligned} \hat{N} &= \min \{ N \in \mathbb{N} | \Delta \ell_y(N) \leqslant 0 \} \\[6pt] &= \min \Big\{ N \in \mathbb{N} \Big| \ln \Big( \frac{N+1}{N} \Big) \geqslant \frac{(y + N \mu)(y-N\mu) - N \mu^2}{N(N+1)\sigma^2} \Big\}. \end{aligned} \end{equation}$

(The next value will also be a maximising point if and only if $\Delta \ell_y(\hat{N}) = 0$ .) Der MLE (entweder der kleinste oder der gesamte Satz) kann als Funktion über eine einfache whileSchleife programmiert werden , und dies sollte in der Lage sein, Ihnen die Lösung ziemlich schnell zu geben. Ich werde den Programmierteil als Übung verlassen.

— Ben - Monica wieder einsetzen
quelle

Ich schätze Ihre Zeit und die gründliche Erklärung. Danke @Ben!

— Nadav Talmon

Kommentar: Hier ist eine kurze Simulation in R für $\mu = 50, \sigma = 3,$ Dies sollte auf zwei oder drei Stellen genau sein und sich dem Mittelwert und der SD von annähern $Y.$ Sie sollten in der Lage sein zu finden $E(Y)$ und $Var(Y)$ durch elementare analytische Methoden, wie in meinem früheren Kommentar angegeben. Wenn wir hätten $N = 100$ dann $E(\hat N)$ scheint unvoreingenommen für $N.$

N = 100;  mu = 50;  sg = 3
y = replicate( 10^6, sum(rnorm(N, mu, sg))/mu )
mean(y);  sd(y)
[1] 99.99997
[1] 0.6001208
N.est = round(y);  mean(N.est);  sd(N.est)
[1] 99.9998
[1] 0.6649131

— BruceET
quelle

Vielen Dank, Bruce!

— Nadav Talmon

Darf ich noch eine Frage stellen? Jetzt werde ich gefragt, ob es einen effizienten Schätzer für das gibt, was ich gefunden habe. Außerdem heißt es, dass wir jetzt die Anforderung ignorieren, dass N eine ganze Zahl sein muss. Was bedeutet es, dass es keine ganze Zahl mehr ist? Wie würde ich die Log-Wahrscheinlichkeit für einen solchen Fall finden?

— Nadav Talmon

Wenn Sie das Potenzial für Verzerrungen verstehen möchten, verwenden Sie nicht groß

N :

$N:$ versuchen Sie es mit einem kleinen Wert.

N = 1

$N=1$ ist besonders interessant :-). So ist es auch

μ = 0.

$\mu=0.$

— whuber