Heuristisch ist die Wahrscheinlichkeitsdichtefunktion für mit maximaler Entropie diejenige, die dem geringsten Wissensstand von , also die Gleichverteilung.{x1,x2,..,.xn}{x1,x2,..,.xn}
Betrachten Sie nun für einen formelleren Beweis Folgendes:
Eine Wahrscheinlichkeitsdichtefunktion für ist eine Menge nichtnegativer reeller Zahlen , die sich zu 1 addieren. Die Entropie ist eine stetige Funktion der Tupel , und diese Punkte liegen in einer kompakten Teilmenge von , so dass es ein Tupel gibt, in dem die Entropie maximiert ist. Wir wollen zeigen, dass dies bei und nirgendwo anders vorkommt.{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn(1/n,...,1/n)
Angenommen, die sind nicht alle gleich, sagen wir . (Offensichtlich ) Wir werden eine neue Wahrscheinlichkeitsdichte mit höherer Entropie finden. Da die Entropie bei einem Tupel maximiert ist, folgt daraus, dass die Entropie bei dem Tupel mit für alle eindeutig maximiert ist .pjp1<p2n≠1nnpi=1/ni
Da , haben wir für kleines positives . Die Entropie von minus der Entropie von gleichp1<p2εp1+ε<p2−ε{p1+ε,p2−ε,p3,...,pn}{p1,p2,p3,...,pn}
−p1log(p1+εp1)−εlog(p1+ε)−p2log(p2−εp2)+εlog(p2−ε)
Um den Beweis zu vervollständigen, wollen wir zeigen, dass dies für klein genug positiv ist . Schreiben Sie die obige Gleichung um als
ε−p1log(1+εp1)−ε(logp1+log(1+εp1))−p2log(1−εp2)+ε(logp2+log(1−εp2))
Unter Hinweis darauf, dass für kleines , lautet die obige Gleichung
was positiv ist, wenn klein genug ist, da .log(1+x)=x+O(x2)x
−ε−εlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp1<p2
Ein weniger strenger Beweis ist der folgende:
Betrachten Sie zuerst das folgende Lemma:
Lassen und sein , kontinuierliche Wahrscheinlichkeitsdichtefunktionen auf einem Intervall
in den reellen Zahlen, mit und auf . Wir haben
wenn beide Integrale existieren. Darüber hinaus gibt es genau dann eine Gleichheit, wenn für alle .p(x)q(x)Ip≥0q>0I
−∫Iplogpdx≤−∫Iplogqdx
p(x)=q(x)x
Sei nun eine Wahrscheinlichkeitsdichtefunktion für mit . Vermietung für alle ,
das ist die Entropie . Deshalb sagt unser Lemma , und zwar genau dann, wenn einheitlich ist.p{x1,...,xn}pi=p(xi)qi=1/ni
−∑i=1npilogqi=∑i=1npilogn=logn
qh(p)≤h(q)p
Auch dazu gibt es in Wikipedia eine kurze Diskussion: Wiki