Warum ist die KL-Divergenz nicht negativ?
Aus informationstheoretischer Sicht verstehe ich das so intuitiv:
Angenommen, es gibt zwei Ensembles und die aus der gleichen Menge von Elementen bestehen, die mit . und sind verschiedene Wahrscheinlichkeitsverteilungen über ensemble und jeweils.
Aus informationstheoretischer Sicht ist die kleinste Menge von Bits, die zum Aufzeichnen eines Elements für Ensemble erforderlich ist . Damit ist die Erwartung
Da diese Formel eine untere Schranke für die Bits setzt, die wir im Durchschnitt benötigen, so dass für ein anderes Ensemble das eine andere Wahrscheinlichkeitsverteilung bewirkt , die Schranke, die es für jedes Element gibt, mit Sicherheit kein Bit ist gegeben durch , was bedeutet, dass die Erwartung genommen wird,
setze ich hier nicht≥, dap(x)undq(x)unterschiedlich sind.
Dies ist mein intuitives Verständnis. Gibt es eine rein mathematische Methode, um zu beweisen, dass die KL-Divergenz nicht negativ ist? Das Problem kann wie folgt angegeben werden:
Angesichts und q ( x ) beide positiv über reale Linie und ∫ + ∞ - ∞ p ( x ) d x = 1 , ∫ + ∞ - ∞ q ( x ) d x = 1 . Beweisen Sie, dass ∫ + ∞ - ∞ p ( x ) ln p ( x ) ist nicht negativ.
Wie kann das bewiesen werden? Oder kann dies ohne zusätzliche Bedingungen bewiesen werden?