Die maximale Wahrscheinlichkeit ist nicht unverparametrisch. Wie kann man es also rechtfertigen, es zu benutzen?

Es gibt etwas, das mich an Max-Likelihood-Schätzern verwirrt. Angenommen, ich habe einige Daten und die Wahrscheinlichkeit unter einem Parameter $\mu$ ist

L. (D. | μ) = e^{- - (.7 - - μ)^{2}}

$L(D|\mu) = e^{-(.7-\mu)^2}$

Dies ist als die Wahrscheinlichkeit einer Gaußschen Skalierung erkennbar. Jetzt wird mir mein Max-Likelihood-Schätzer geben $\mu=.7$ .

Angenommen, ich wusste das nicht und arbeitete stattdessen mit einem Parameter $t$ so dass $\mu=\sin(t)$ . Nehmen wir auch an, dass dies alles numerisch war und ich nicht sofort sehen würde, wie albern die folgende Wahrscheinlichkeit aussieht

L. (D. | t) = e^{- - (.7 - - Sünde (t))^{2}}

$L(D|t) = e^{-(.7-\sin(t))^2}$

Jetzt würde ich für die maximale Wahrscheinlichkeit lösen und zusätzliche Lösungen erhalten. Um dies zu sehen, zeichne ich es unten.

Unter diesem Gesichtspunkt scheint Max-Likelihood eine dumme Sache zu sein, da sie nicht invarametrisierungsinvariant ist . Was vermisse ich?

Beachten Sie, dass eine Bayes'sche Analyse dies natürlich berücksichtigen würde, da die Wahrscheinlichkeiten immer mit einem Maß verbunden wären

L. (D. | μ) P. (μ) d μ = L. (D. | μ (t)) P. (μ (t)) \frac{d μ}{d t} d t

$L(D|\mu) P(\mu) d\mu = L(D|\mu(t)) P(\mu(t)) \frac{d\mu}{dt} dt$

Teil nach Antworten und Kommentaren hinzugefügt (hinzugefügt am 16.03.2008)

Ich habe später festgestellt, dass mein Beispiel oben nicht gut ist, weil die beiden Maxima in $t_1,t_2$ entsprechen $.7=\sin(t_1)=\sin(t_2)$ . Sie identifizieren also den gleichen Punkt. Ich habe das Obige für die Diskussion und die Antworten unten aufbewahrt, um einen Sinn zu ergeben. Ich denke jedoch, dass das Folgende ein besseres Beispiel für das Problem ist, das ich herauszufinden versuche.

Nehmen

L. (D. | μ) = e^{- - (ein - - μ)^{2}}

$L(D|\mu) = e^{-(a-\mu)^2}$

Angenommen, ich parametriere neu $\mu=\mu(t)$ dann mache eine maximale Wahrscheinlichkeit in Bezug auf $t$ Ich bekomme

\frac{\partial L.}{\partial t} = \frac{\partial L.}{\partial μ} \frac{\partial μ}{\partial t}

$\frac{\partial L}{\partial t} = \frac{\partial L}{\partial \mu} \frac{\partial \mu}{\partial t}$

Wenn ich ein Maximum an einem anderen Ort als dem möchte, den ich durch Maximieren in Bezug auf erhalte $\mu$ Ich benötige

\frac{\partial L.}{\partial μ} \neq 0

$\frac{\partial L}{\partial \mu} \ne 0$

und

\frac{\partial μ}{\partial t} = 0, \frac{\partial L.}{\partial μ} \frac{\partial^{2} μ}{\partial t^{2}} < 0

$\frac{\partial \mu}{\partial t} =0, \qquad \frac{\partial L}{\partial \mu} \frac{\partial^2 \mu}{\partial t^2} < 0$

Somit kann ich ein einfaches Beispiel nehmen

μ = b - - (ein - - b) t^{2} + t^{3}

$\mu = b - (a-b)t^2+t^3$

Ich zeichne die Ergebnisse unten. Das können wir deutlich sehen $\mu=a$ ist das globale Maximum (und nur eines bei der Maximierung in Bezug auf $\mu$ ) aber wir haben auch andere lokale Maxima bei $t=0$ wenn wir in Bezug auf maximieren $t$ .

Beachten Sie die Karte $\mu(t)$ ist nicht bijektiv, aber ich verstehe nicht, warum es sein muss. Zumindest in diesem Beispiel sind die globalen Maxima immer die bei $\mu=a$ aber aus frequentistischer Sicht wäre ich nicht verpflichtet, einen gewichteten Durchschnitt von 1 / 1,6 von zu nehmen $\mu=a$ und .6 / 1.6 von $\mu=b$ (das entspricht $t=0$ ) wenn ich komplett in der gearbeitet habe $t$ Platz?

bayesian maximum-likelihood frequentist

— Borun Chowdhury
quelle

Im Gegenteil, die Lösung ist unveränderlich. Die richtige Formulierung ist, dass alle Werte

t

$t$ die minimieren

L (μ (t))

$L(\mu(t))$ entsprechen Werten von

μ

$\mu$ das minimieren

L (μ)

$L(\mu)$ - was allein aus der Notation ersichtlich sein sollte. Damit dieses Ergebnis erhalten bleibt, spielt es keine Rolle, ob

μ

$\mu$ umkehrbar ist, ein Eins-zu-eins, kontinuierlich, oder irgendetwas anderes, denn am Ende alles , was wir diskutieren , ist , wie man nennt die Verteilung (n) , für die die Wahrscheinlichkeit am größten ist. "Eine Rose mit einem anderen Namen riecht genauso süß."

— whuber

Ich musste bearbeiten, da mein Beispiel nicht gut war. Neues Beispiel ist

L = e^{- (a - μ)^{2}}

$L=e^{-(a-\mu)^2}$ und

μ = b - (a - b) t^{2} + t^{3}

$\mu=b-(a-b) t^2 + t^3$ . Dies ergibt ein zusätzliches "lokales" Maximum bei

t = 0

$t=0$ . Die Wahrscheinlichkeit ist nicht bimodal, sollte man also nicht den gewichteten Durchschnitt nehmen? Wenn ja, würde dies die Lösung nicht unveränderlich machen.

— Borun Chowdhury

@whuber Ich stimme zu, dass, da die Wahrscheinlichkeit ein Skalar ist, die globalen Maxima bei Umparametrierung unveränderlich sind, genau wie eine Rose mit einem anderen Namen genauso süß riecht. Ich habe mehr über die Möglichkeit gesprochen, mehrere lokale Maxima zu generieren und dann zu rechtfertigen, den gewichteten Durchschnitt nicht zu nehmen.

— Borun Chowdhury

Kein Durchschnitt würde notwendigerweise überhaupt einen Sinn ergeben, denn am Ende beschreiben Sie eher Verteilungen als Zahlen beschreiben. In Ihrer Viele-zu-Eins-Transformation sollten Sie dieselbe Verteilung mit sich selbst "mitteln" - da alle Maxima derselben Verteilung entsprechen -, aber der Durchschnitt der numerischen "Namen", die Sie diesen Verteilungen zugewiesen haben, wäre bedeutungslos .

— whuber

Antworten:

Wenn Sie sich Ihr Diagramm ansehen, sieht es so aus $\hat{t} \in \{0.7753975, 2.346194\}$ ist eine ziemlich vernünftige Vermutung über die MLE (s) von $t$ . Ausführen dieser Werte durch die $\sin$ Funktion, um zurück zu kommen $\mu$ führt zu $\hat{\mu} = \{0.7, 0.7\}$ oder $0.7$ , genau wie es sollte. Es gibt also keine Meinungsverschiedenheiten zwischen der MLE von $\mu$ und die MLE (s) von $t$ .

Was passiert ist, dass Sie eine Karte aus erstellt haben $\mu \to t$ das ist nicht 1-1. In diesem Fall ist der wahre Wert von $\mu$ Zuordnungen zu mehreren Werten von $t$ Es überrascht also nicht, dass Sie bei der Arbeit mit mehreren Maxima arbeiten $t$ . Beachten Sie jedoch, dass dies dasselbe wäre, wenn Sie eine Bayes'sche Analyse durchführen würden, es sei denn, Ihre vorherige Einschränkung $t$ auf das Intervall $[-\pi/2, \pi/2)$ oder solche. Wenn Sie dies getan haben, sollten Sie aus Gründen der Vergleichbarkeit den Bereich der MLE von einschränken $t$ In diesem Fall erhalten Sie nicht mehr mehrere Maxima für die Wahrscheinlichkeitsfunktion.

ETA: Im Nachhinein habe ich mich zu sehr auf die Erklärung am Beispiel konzentriert und nicht genug auf das zugrunde liegende Prinzip. Man kann es kaum besser machen als @ whubers Kommentar als Antwort auf das OP in dieser Hinsicht.

Im Allgemeinen, wenn Sie einen Parameter haben $\theta$ und eine zugehörige MLE $\hat{\theta}$ und Sie konstruieren eine Funktion $\theta = f(t)$ Sie haben effektiv einen alternativen Parameter erstellt $t$ . Die MLE von $t$ , beschrifte es $\hat{t}$ werden die Werte von sein $t$ so dass $f(t) = \hat{\theta}$ dh $f(\hat{t}) = \hat{\theta}$ .

— Jbowman
quelle

Ich stimme zu, dass mein Beispiel nicht ganz so ist, wie ich es erwartet hatte. Ich habe es auf dem Heimweg gemerkt. Ein besseres Beispiel ist

μ = b - t^{2} + t^{3}

$\mu=b-t^2+t^3$ . Hier bekommen wir Maxima für

t

$t$ das ist nicht zugeordnet

μ = .7

$\mu=.7$ (es hängt davon ab

b

$b$ ). Trotzdem ist es auch nicht bijektiv.

— Borun Chowdhury

Ich verstehe nicht, warum die Parametrisierung bijektiv sein muss. Tatsächlich frage ich nicht, welche Parametrisierungen durchgeführt werden können, um dieselbe Antwort zu geben, sondern warum die maximale Wahrscheinlichkeit verwendet wird, wenn sie nicht unverparametrisch ist.

— Borun Chowdhury

Einige meiner besten Gedanken werden im Berufsverkehr gemacht ... Können Sie sich eine einfallen lassen?

μ

$\mu$ ,

b

$b$ und

t

$t$ für welche

μ = b - t^{2} + t^{3}

$\mu = b - t^2 + t^3$ führt beim Einstecken zu unterschiedlichen Werten für die Wahrscheinlichkeitsfunktion

μ

$\mu$ in als wenn Sie einstecken

b - t^{2} + t^{3}

$b - t^2 + t^3$ anstelle von

μ

$\mu$ ? Ich vermute nicht ... siehe @ whubers Kommentar oben.

— Jbowman

Mein Punkt über die Nicht-1-1-Natur Ihrer Funktion ist nicht, dass sie überhaupt nicht funktioniert, sondern dass dies für die Multimodalität der Wahrscheinlichkeitsfunktion verantwortlich ist

t

$t$ (Nun, das und das ist die Funktion nicht 1-1 bei

μ

$\mu$ , was deutlich restriktiver ist.)

— Jbowman

Ich habe das oben genannte Beispiel bearbeitet. ich nahm

μ = b - (a - b) t^{2} + t^{3}

$\mu= b- (a-b) t^2 + t^3$ . Dann solange

a \neq b

$a \ne b$ Es gibt ein zusätzliches 'lokales' Maximum bei

t = 0 (μ = b)

$t=0 (\mu=b)$ . Obwohl es sich um ein lokales Maximum handelt, sollte die maximale Wahrscheinlichkeit ein gewichteter Durchschnitt von sein, da seine Höhe vergleichbar ist

μ = a, b

$\mu=a,b$ (Ich vermute, dass dies für die bimodale Max-Likelihood getan wird).

— Borun Chowdhury

Da meine vorherige Antwort nicht ganz klar war, ob Bijektivität notwendig ist oder nicht (man könnte argumentieren, dass meine Antwort einfach falsch war). Ich habe einige Nachforschungen über die ganze Reparatur angestellt und hier ist, was ich herausgefunden habe. Sowohl @whuber als auch @jbowman berühren einige der gleichen Dinge.

Theorie

Theoretisch also der Maximum-Likelihood-Schätzer $\hat{\theta}$ der Wahrscheinlichkeitsfunktion $L\left(\theta\right)$ ist für die Neuparametrisierung unveränderlich. Angenommen, Sie haben eine bekannte Funktion $g$ , die neu parametrisiert $\theta$ in $\lambda=g(\theta)$ (wo die Abmessungen von $\theta$ und $\lambda$ sind nicht unbedingt gleich). Dann gelten zwei Tatsachen:

Maximieren $L\left(\theta\right)$ wrt. $\theta$ das heißt, die MLE finden, $\hat{\theta}$ und dann neu parametrisieren, $g(\hat{\theta})$ ergibt die MLE von $\hat{\lambda}$ . Zusamenfassend, $\hat{\lambda}=g\left(\hat{\theta}\right)$ .
Weiter, wenn $g$ hat eine Umkehrung, Maximierung $L\left(g^{-1}(\lambda)\right)$ wrt. $\lambda$ das heißt, die MLE finden $\hat{\lambda}$ ergibt das gleiche Maximum wie $\hat{\theta}$ . Also die MLE von $\theta$ ist $\hat{\theta}=g^{-1}\left(\hat{\lambda}\right)$ .

Das Aufteilen der Invarianz in diese beiden Unterfälle kann etwas künstlich erscheinen, aber ich finde es nützlich, da sie zwei verschiedene Anwendungsfälle der Neuparametrisierung darstellen.

In der Praxis

Der erste Anwendungsfall besteht darin, dass Sie die MLE für einen Parameter irgendwie identifizieren können, aber tatsächlich eine bestimmte Transformation dieser Variablen benötigen. Zum Beispiel haben Sie einen Schätzer, $\hat{\sigma},$ für den Parameter $\sigma$ in der Normalverteilung, aber Sie sind tatsächlich an der MLE für die Varianz interessiert $\sigma^{2}$ . Dann können Sie das Invarianzprinzip verwenden und einfach das Quadrat ausrichten $\sigma$ -MLE, $\hat{\sigma^{2}}=(\hat{\sigma})^{2}$ .

Ein Beispiel für den zweiten Anwendungsfall ist, dass Sie einen numerischen Algorithmus wie Gradientenabstieg oder Newton-Raphson haben, um die Wahrscheinlichkeitsfunktion zu maximieren. Angenommen, Sie möchten den Parameter schätzen $\sigma^{2}$ aus einer Normalverteilung. Der Parameter ist per Definition streng positiv, aber mit dem numerischen Verfahren können Sie keine Einschränkungen vornehmen. Nun, Sie können die Invarianzeigenschaft zum Festlegen verwenden $\sigma^{2}=\exp(\lambda)$ und lassen Sie den Algorithmus variieren $\lambda$ anstatt $\sigma^{2}$ auf diese Weise sicherstellen, dass $\sigma^{2}$ bleibt positiv. Das Exponential ist bijektiv, aber dies ist nicht unbedingt erforderlich. Wir hätten gebrauchen können $\sigma^{2}=\lambda^{2}$ stattdessen ist das nicht bijektiv. Die Verwendung einer Bijektion ist jedoch praktischer, da wir davon ausgehen können $\sigma^{2}$ zu $\lambda$ und zurück auf einzigartige Weise.

Die Formalitäten

Um die MLE von zu definieren $\lambda$ formeller müssen wir definieren, was als Profilwahrscheinlichkeitsfunktion bezeichnet wird als:

L^{*} (λ) = sup_{θ | λ = g (θ)} L (θ) .

$L^{\ast}(\lambda)=\sup_{\theta\vert\lambda=g\left(\theta\right)}L\left(\theta\right).$

Also für eine gegebene $\lambda$ -Wert den Profilwahrscheinlichkeitswert, ist das höchste über alles $\theta$ 's die dafür sorgen $g\left(\theta\right)$ gleich $\lambda$ .

Mit der definierten Profilwahrscheinlichkeit können wir dann die MLE für definieren $\lambda$ bezeichnet $\hat{\lambda}$ als der Wert, der maximiert $L^{\ast}\left(\lambda\right)$ .

Mit diesen Definitionen läuft die Invarianz der Reparametrisierung auf Folgendes hinaus:

L^{*} (\hat{λ}) = L (\hat{θ})

$L^{\ast}\left(\hat{\lambda}\right)=L\left(\hat{\theta}\right)$

was bewiesen werden kann durch,

L^{*} (\hat{λ}) = max_{λ} L^{*} (λ) = max_{λ} sup_{θ | λ = g (θ)} L (θ) = sup_{θ} L (θ) = max_{θ} L (θ)

$L^{\ast}\left(\hat{\lambda}\right)=\max_{\lambda}L^{\ast}\left(\lambda\right)=\max_{\lambda}\sup_{\theta\vert\lambda=g\left(\theta\right)}L\left(\theta\right)=\sup_{\theta}L\left(\theta\right)=\max_{\theta}L\left(\theta\right)$

wo ich das angenommen habe $L\left(\theta\right)$ hat ein Maximum.

Wenn die Neuparametrisierung eine Bijektion ist, dh invertierbar ist, dann $L^{\ast}\left(\lambda\right)$ ist einfach $L(g(\theta))$ Seit jeder $\theta$ eindeutig Karten zu a $\lambda$ und daher das Supremum über "alle" $\theta$ ist einfach zum Einzigartigen zusammengebrochen $L(\theta)$ . Also, wir verstehen das,

\begin{aligned} L^{*} (λ) & = L (g (θ)) \\ L^{*} (g^{- 1} (λ)) & = L (θ) \end{aligned}

$\begin{align*} L^{\ast}\left(\lambda\right) & =L\left(g\left(\theta\right)\right)\\ L^{\ast}\left(g^{-1}(\lambda)\right) & =L\left(\theta\right) \end{align*}$ und daher,

\hat{θ} = g^{- 1} (\hat{λ}) .

$\hat{\theta}=g^{-1}\left(\hat{\lambda}\right).$ Verweise:

Invarianzeigenschaft von MLE: Was ist die MLE von $\theta^2$ von normalem, $\bar{X}^2$ ?

http://www.stats.ox.ac.uk/~dlunn/b8_02/b8pdf_6.pdf

http://www.stat.unc.edu/faculty/cji/lecture7.pdf

https://en.wikipedia.org/wiki/Maximum_likelihood_estimation#Functional_invariance

— Duffau
quelle