Es ist wirklich nur eine Annehmlichkeit für die Wahrscheinlichkeit, nichts weiter.
Ich meine die Bequemlichkeit der Summen gegen Produkte: , die Summen sind einfacher zu handhaben in vielerlei Hinsicht, wie differentialtion oder Integration. Es ist keine Annehmlichkeit für exponentielle Familien, versuche ich zu sagen.ln(∏ixi)=∑ilnxi
Wenn Sie sich mit einer Zufallsstichprobe befassen, haben die Wahrscheinlichkeiten die Form: , sodass die Log-Wahrscheinlichkeit dieses Produkt stattdessen in die Summe zerlegt, was einfacher zu manipulieren und zu analysieren ist. Es hilft, dass alles, was uns interessiert, der Punkt des Maximums ist, der Wert am Maximum ist nicht wichtig, da wir jede monotone Transformation wie den Logarithmus anwenden können.L=∏ipi
Auf die Krümmungsintuition. Im Grunde ist es am Ende dasselbe wie die zweite Ableitung der Loglikelihood.
UPDATE: Das habe ich mit der Krümmung gemeint. Wenn Sie eine Funktion , dann wäre ihre Krümmung ( siehe (14) bei Wolfram):
κ = f ″ ( x )y=f(x)
κ=f′′(x)(1+f′(x)2)3/2
Die zweite Ableitung der log-Wahrscheinlichkeit:
A=(lnf(x))′′=f′′(x)f(x)−(f′(x)f(x))2
Am Punkt des Maximums ist die erste Ableitung offensichtlich Null, so dass wir erhalten:
Daher kann ich sagen, dass die Krümmung der Wahrscheinlichkeit und die zweite Ableitung der Loglikelihood sind dasselbe.
κmax=f′′(xmax)=Af(xmax)
Wenn andererseits die erste Ableitung der Wahrscheinlichkeit nicht nur am, sondern um den Punkt des Maximums klein ist, dh die Wahrscheinlichkeitsfunktion ist flach, dann erhalten wir:
Nun die flache Wahrscheinlichkeit Das ist für uns nicht gut, weil es das Auffinden des Maximums numerisch schwieriger macht und die maximale Wahrscheinlichkeit nicht besser ist als bei anderen Punkten, dh die Parameterschätzungsfehler sind hoch.
κ≈f′′(x)≈Af(x)
Und wieder haben wir immer noch die Krümmung und die Beziehung der zweiten Ableitung. Warum hat Fisher die Krümmung der Wahrscheinlichkeitsfunktion nicht untersucht? Ich denke, es ist aus dem gleichen Grund der Bequemlichkeit. Es ist einfacher, die Log-Wahrscheinlichkeit aufgrund von Summen anstelle des Produkts zu manipulieren. So konnte er die Krümmung der Wahrscheinlichkeit untersuchen, indem er die zweite Ableitung der Wahrscheinlichkeit analysierte. Obwohl die Gleichung für die Krümmung sehr einfach aussieht , nehmen Sie in Wirklichkeit eine zweite Ableitung des Produkts, die unordentlicher ist als die Summe der zweiten Ableitungen.κmax=f′′(xmax)
UPDATE 2:
Hier ist eine Demonstration. Ich zeichne eine (vollständig erfundene) Wahrscheinlichkeitsfunktion, ihre a) Krümmung und b) die 2. Ableitung ihres Logs. Auf der linken Seite sehen Sie die enge Wahrscheinlichkeit und auf der rechten Seite ist es breit. Sie sehen, wie am Punkt der maximalen Wahrscheinlichkeit a) und b) zusammenlaufen, wie sie sollten. Noch wichtiger ist jedoch, dass Sie die Breite (oder Ebenheit) der Wahrscheinlichkeitsfunktion untersuchen können, indem Sie die 2. Ableitung ihrer logarithmischen Wahrscheinlichkeit untersuchen. Wie ich bereits schrieb, ist letzteres technisch einfacher zu analysieren als ersteres.
Es ist nicht überraschend, dass eine tiefere 2. Ableitung von Loglikelihood-Signalen eine flachere Likelihood-Funktion um ihr Maximum herum aufweist, was für sie nicht erwünscht ist und einen größeren Parameterschätzungsfehler verursacht.
MATLAB-Code für den Fall, dass Sie die Diagramme reproduzieren möchten:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
UPDATE 3:
Im obigen Code habe ich eine beliebige glockenförmige Funktion in die Krümmungsgleichung eingefügt und dann die zweite Ableitung ihres Logs berechnet. Ich habe nichts neu skaliert, die Werte stammen direkt aus Gleichungen, um die zuvor erwähnte Äquivalenz zu zeigen.
Hier ist das allererste Papier über die Wahrscheinlichkeit, dass Fisher während seines Studiums veröffentlichte: "Über ein absolutes Kriterium zur Anpassung von Frequenzkurven", Messenger of Mathmatics, 41: 155-160 (1912)
logP′=∑n1logp
logP=∫∞−∞logfdx
P
Eine Sache, die zu beachten war, als er die Zeitung las, war, dass er erst mit der Maximum-Likelihood-Schätzung begann und in den folgenden 10 Jahren mehr arbeitete, so dass, soweit ich weiß, selbst der Begriff MLE noch nicht geprägt war.