Betrachten Sie die Bayes - posterior . Asymptotisch tritt ihr Maximum bei der Schätzung MLE θ , der nur die Wahrscheinlichkeit maximiert argmin θ .
Alle diese Konzepte - Bayesianische Prioritäten, die die Wahrscheinlichkeit maximieren - klingen super prinzipiell und überhaupt nicht willkürlich. Es ist kein Log in Sicht.
MLE minimiert jedoch die KL-Divergenz zwischen der reellen Verteilung und , dh es minimiert
Woah - woher kommen diese Protokolle? Warum gerade KL-Divergenz?
Warum entspricht beispielsweise die Minimierung einer anderen Divergenz nicht den übergeordneten und motivierten Konzepten der Bayes'schen Posterioren und der oben genannten Maximierung der Wahrscheinlichkeit?
KL-Divergenz und / oder Protokolle scheinen in diesem Zusammenhang etwas Besonderes zu sein. Natürlich können wir unsere Hände in die Luft werfen und sagen, dass die Mathematik genau so ist. Aber ich vermute, dass es eine tiefere Intuition oder Verbindungen geben könnte, die aufgedeckt werden müssen.