Was ist die maximale Wahrscheinlichkeitsschätzung der Kovarianz bivariater Normaldaten, wenn Mittelwert und Varianz bekannt sind?

Angenommen, wir haben eine Zufallsstichprobe aus einer bivariaten Normalverteilung, die Nullen als Mittelwerte und Einsen als Varianzen enthält. Der einzige unbekannte Parameter ist also die Kovarianz. Was ist die MLE der Kovarianz? Ich weiß, es sollte so etwas wie aber woher wissen wir das? $\frac{1}{n} \sum_{j=1}^{n}x_j y_j$

— Stacy
quelle

Glauben Sie nicht, dass es als Anfänger ein bisschen unkonventionell ist, die Mittelwerte mit und zu schätzen, wenn wir tatsächlich wissen, dass sie 0 und 0 sind?

\bar{x}

$\bar{x}$

\bar{y}

$\bar{y}$

— Wolfgang

Sehr Onkel, reparierte es. Ich sehe immer noch nicht, wie dies leicht folgen kann. Es ist analog zur Stichprobenvarianz, aber warum ist es die MLE (es sei denn, es ist nicht so und ich habe einen weiteren Fehler gemacht)

— Stacy

Haben Sie ? Wenn Sie diese Formel verwenden, bedeutet dies nicht, dass Sie und als Schätzungen der Mittelwerte betrachten .

\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})

$\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(y_i - \bar y)$

\bar{x}

$\bar x$

\bar{y}

$\bar y$

— Stéphane Laurent

@ StéphaneLaurent Ja, im ersten Beitrag wurde die Formel so angegeben, wie Sie sie geschrieben haben.

— Wolfgang

Der Schätzer für den Korrelationskoeffizienten (der im Fall einer bivariaten Standardnormalen gleich der Kovarianz ist)

\tilde{r} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}

$\tilde r = \frac 1n\sum_{i=1}^nx_iy_i$

ist der Method-of-Moments-Schätzer, die Stichproben-Kovarianz. Mal sehen, ob es mit dem Maximum-Likelihood-Schätzer übereinstimmt . $\hat \rho$

Die Gelenkdichte einer bivariaten Standardnormalen mit dem Korrelationskoeffizienten beträgt $\rho$

f (x, y) = \frac{1}{2 π \sqrt{1 - ρ^{2}}} \exp {- \frac{x^{2} + y^{2} - 2 ρ x y}{2 (1 - ρ^{2})}}

$f(x,y) = \frac{1}{2 \pi \sqrt{1-\rho^2}} \exp\left\{-\frac{x^2 +y^2 -2\rho xy}{2(1-\rho^2)}\right\}$

und so die log-Wahrscheinlichkeit einer iid Stichprobe der Größe ist , $n$

\ln L = - n \ln (2 π) - \frac{n}{2} \ln (1 - ρ^{2}) - \frac{1}{2 (1 - ρ^{2})} \sum_{i = 1}^{n} (x_{i}^{2} + y_{i}^{2} - 2 ρ x_{i} y_{i})

$\ln L = -n\ln(2\pi) -\frac n2\ln(1-\rho^2) - \frac 1{2(1-\rho^2)}\sum_{i=1}^n(x_i^2 +y_i^2 -2\rho x_iy_i)$

(hier bezieht sich die iid-Annahme natürlich auf jede Ziehung aus der zweidimensionalen Population)

Wenn man die Ableitung in Bezug auf und sie auf Null setzt, erhält man ein 3D-Polynom in : $\rho$ $\rho$

\hat{ρ} : n {\hat{ρ}}^{3} - (\sum_{i = 1}^{n} x_{i} y_{i}) {\hat{ρ}}^{2} - (1 - \frac{1}{n} \sum_{i = 1}^{n} (x_{i}^{2} + y_{i}^{2})) n \hat{ρ} - \sum_{i = 1}^{n} x_{i} y_{i} = 0

$\hat \rho: n\hat \rho^3 -\left(\sum_{i=1}^nx_iy_i\right)\hat\rho^2 -\left(1- \frac 1n\sum_{i=1}^n(x_i^2 +y_i^2) \right)n\hat \rho - \sum_{i=1}^nx_iy_i =0$

Dass die Berechnungen korrekt sind, kann überprüft werden, wenn man den erwarteten Wert der Ableitung nimmt, die mit dem wahren Koeffizienten -it gleich Null bewertet wird. $\rho$

Für die Kompaktheit schreiben Sie , was die Summe der Stichprobenvarianzen von und . Wenn wir den Ausdruck der 1. Ableitung durch teilen, erscheint spezifisch der MoM-Schätzer $(1/n)\sum_{i=1}^n(x_i^2 +y_i^2) = (1/n)S_2$ $X$ $Y$ $n$

\hat{ρ} : {\hat{ρ}}^{3} - \tilde{r} {\hat{ρ}}^{2} + [(1 / n) S_{2} - 1] \hat{ρ} - \tilde{r} = 0

$\hat \rho: \hat \rho^3 -\tilde r \hat \rho^2 + \big[(1/n)S_2-1\big]\hat \rho -\tilde r=0$

\Rightarrow \hat{ρ} ({\hat{ρ}}^{2} - \tilde{r} \hat{ρ} + [(1 / n) S_{2} - 1]) = \tilde{r}

$\Rightarrow \hat \rho\Big(\hat \rho^2 -\tilde r \hat \rho + \big[(1/n)S_2-1\big] \Big) = \tilde r$

Bei der Algebra ist es nicht schwer zu schließen, dass wir genau dann wenn und nur wenn , dh nur dann, wenn die Summe der Stichprobenvarianzen gleich ist die Summe der wahren Abweichungen. Also im Allgemeinen $\hat \rho = \tilde r$ $(1/n)S_2 =2$

\hat{ρ} \neq \tilde{r}

$\hat \rho \neq \tilde r$

Was passiert hier? Jemand, der klüger ist, wird es erklären. Lassen Sie uns zunächst eine Simulation versuchen: Ich habe eine iid-Stichprobe von zwei Standardnormalen mit dem Korrelationskoeffizienten generiert . Die Stichprobengröße betrug . Die Probenwerte waren $\rho=0.6$ $n=1.000$

\sum_{i = 1}^{n} x_{i} y_{i} = 522.05, S_{2} = 1913.28

$\sum_{i=1}^nx_iy_i = 522.05,\;\;S_2 = 1913.28$

Der Momentenschätzer gibt uns

\tilde{r} = \frac{522.05}{1000} = 0.522

$\tilde r = \frac {522.05}{1000} = 0.522$

Was passiert mit der Log-Wahrscheinlichkeit? Optisch haben wir

Geben Sie hier die Bildbeschreibung ein

Numerisch haben wir

\begin{array}{rrr} ρ & 1st deriv & lnL \\ 0.5 & - 70.92 & - 783.65 \\ 0.51 & - 59.41 & - 782.47 \\ 0.52 & - 47.7 & - 781.48 \\ 0.53 & - 35.78 & - 780.68 \\ 0.54 & - 23.64 & - 780.1 \\ 0.55 & - 11.29 & - 779.75 \\ 0.56 & 1.29 & - 779.64 \\ 0.57 & 14.1 & - 779.81 \\ 0.58 & 27.15 & - 780.27 \\ 0.59 & 40.44 & - 781.05 \\ 0.6 & 53.98 & - 782.18 \end{array}

$\begin{array}{| r | r | r |} \hline \hline ρ&\text{1st deriv}&\text{lnL}\\ \hline 0.5&-70.92&-783.65\\ 0.51&-59.41&-782.47\\ 0.52&-47.7&-781.48\\ 0.53&-35.78&-780.68\\ 0.54&-23.64&-780.1\\ 0.55&-11.29&-779.75\\ 0.56&1.29&-779.64\\ 0.57&14.1&-779.81\\ 0.58&27.15&-780.27\\ 0.59&40.44&-781.05\\ 0.6&53.98&-782.18\\ \hline \end{array}$

und wir sehen, dass die log-Wahrscheinlichkeit ein Maximum ein bisschen vor wobei auch die 1. Ableitung Null wird . Keine Überraschungen für die Werte von nicht gezeigt. Auch die 1. Ableitung hat keine andere Wurzel. $\rho=0.56$ $(\hat \rho = 0.558985)$ $\rho$

Diese Simulation stimmt also mit dem Ergebnis überein, dass der Maximum-Likelihood-Schätzer nicht der Methode des Momentenschätzers entspricht (bei der es sich um die Stichproben-Kovarianz zwischen den beiden RVs handelt).

Aber es scheint, dass "jeder" sagt, dass es ... also sollte jemand eine Erklärung finden.

AKTUALISIEREN

Eine Referenz, die beweist, dass der MLE der Schätzer für die Methode der Momente ist: Anderson, TW & Olkin, I. (1985). Maximum-Likelihood-Schätzung der Parameter einer multivariaten Normalverteilung. Lineare Algebra und ihre Anwendungen, 70, 147-171.
Ist es wichtig, dass hier alle Mittel und Abweichungen frei variieren und nicht festgelegt werden können?

... Wahrscheinlich ja, weil der Kommentar von @ guy in einer anderen (jetzt gelöschten) Antwort besagt, dass mit gegebenen Mittelwert- und Varianzparametern die bivariate Normalität ein Mitglied der gekrümmten Exponentialfamilie wird (und sich daher einige Ergebnisse und Eigenschaften ändern) ... Dies scheint der einzige Weg zu sein, um die beiden Ergebnisse in Einklang zu bringen.

— Alecos Papadopoulos
quelle

Dies ist ein wenig überraschend, aber nach einigen Überlegungen sollte es erwartet werden. Das Problem kann umformuliert werden, indem der Regressionskoeffizient im Modell geschätzt wird, wobei . Dies ist kein lineares Modell, daher gibt es keinen Grund zu der Annahme, dass es sich bei der MLE um ein einfaches Punktprodukt handelt. Die gleiche Logik zeigt (glaube ich!), Dass, wenn wir nur die MLE ist und wenn wir nur . Wenn wir beides nicht wissen, erhalten wir Ihren MOM-Schätzer.

ρ

$\rho$

Y = ρ X + ϵ

$Y = \rho X + \epsilon$

ϵ \sim N (0, {\sqrt{1 - ρ^{2}}}^{2})

$\epsilon \sim \mathcal N(0, \sqrt{1 - \rho^2}^2)$

Var (X)

$\mbox{Var}(X)$

x^{'} y / x^{'} x

$x'y / x'x$

x^{'} y / y^{'} y

$x'y / y'y$

Var (Y)

$\mbox{Var}(Y)$

— Kerl

@guy: Sehr interessant. Ich denke, diese Argumente verdienen es, wenn sie leicht erweitert werden, als separate Antwort veröffentlicht zu werden!

— Amöbe sagt Reinstate Monica

@guy Ich denke nicht, dass diese Formulierung äquivalent ist, da die Log-Wahrscheinlichkeit in der Regressionseinstellung das Quadrat . Der an gebundene Koeffizient ist in der bivariaten Dichteformulierung nicht vorhanden.

ϵ^{2} = (y - ρ x)^{2} = y^{2} - 2 ρ x y + ρ^{2} x^{2}

$\epsilon^2=(y-\rho x)^2 = y^2 -2\rho xy + \rho^2 x^2$

ρ^{2}

$\rho^2$

x^{2}

$x^2$

— Alecos Papadopoulos

Meine Vermutung ist . Stellen Sie sich und , dann wird eine Schätzung von erwartet.

\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})

$\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(y_i - \bar y)$

n = 2

$n=2$

y_{1} = y_{2}

$y_1=y_2$

0

$0$

— Stéphane Laurent

@AlecosPapadopoulos . Der Term wird durch den Nenner gelöscht. Der einzige Term aus den Daten, der zu Ihrer ursprünglichen Log-Wahrscheinlichkeit beiträgt, ist . Dies ergibt sich aber auch unmittelbar aus der bekannten Faktorisierung , . Meine anderen Behauptungen sind jedoch falsch, da ich es versäumt habe, den Begriff in sie aufzunehmen.

x^{2} + y^{2} - 2 ρ x y = (1 - ρ^{2}) x^{2} + (y - ρ x)^{2}

$x^2 + y^2 - 2\rho x y = (1 - \rho^2) x^2 + (y - \rho x)^2$

(1 - ρ^{2}) x^{2}

$(1 - \rho^2) x^2$

(1 - ρ^{2})

$(1 - \rho^2)$

(y - ρ x)^{2} / (1 - ρ^{2})

$(y - \rho x)^2 / (1 - \rho^2)$

X \sim N (μ_{X}, σ_{X}^{2})

$X \sim N(\mu_X, \sigma^2_X)$

[Y | X] \sim N (μ_{Y} + ρ_{X} \frac{σ_{Y}}{σ_{X}} (X - μ_{X}), σ_{Y | X}^{2} {\sqrt{1 - ρ^{2}}}^{2})

$[Y|X] \sim N(\mu_Y + \rho_X \frac{\sigma_Y}{\sigma_X} (X - \mu_X), \sigma^2_{Y|X} \sqrt{1 - \rho^2}^2)$

σ_{Y} / σ_{X}

$\sigma_Y/\sigma_X$

— Kerl

Unter den angegebenen Bedingungen ( und ), der Größe der Likelihood - Funktion für eine Stichprobe ist $\mu_X = \mu_Y = 0$ $\sigma_X = \sigma_Y = 1$ $n$

L (ρ | X, Y) = \frac{1}{(2 π [1 - ρ^{2}])^{n / 2}} \exp [- \frac{1}{2 (1 - ρ^{2})} (X^{'} X - 2 ρ X^{'} Y + Y^{'} Y)] .

$L(\rho\; |\; X, Y) = \frac{1}{(2\pi[1-\rho^2])^{n/2}}\exp \left[-\frac{1}{2(1-\rho^2)}(X'X - 2\rho X'Y + Y'Y)\right].$

Finden Sie nun die Log-Wahrscheinlichkeit und nehmen Sie die Ableitung in Bezug auf . Setzen Sie es als Nächstes auf 0 und lösen Sie nach . Sie sollten natürlich einen geeigneten Test durchführen, um zu zeigen, dass das, was Sie gefunden haben, tatsächlich ein globales Maximum ist. $\rho$ $\hat{\rho}$

— Dennis
quelle