Sie benötigen einige Bedingungen, um die Äquivalenz zwischen der Minimierung der Kreuzentropie und der Minimierung der KL-Divergenz zu behaupten. Ich werde Ihre Frage in den Kontext von Klassifizierungsproblemen stellen, bei denen Kreuzentropie als Verlustfunktion verwendet wird.
S.( v ) = - ∑ichp ( vich) logp ( vich) ,
p ( vich)vichS.( v )
Zum Beispiel ist das Ereignis A I will die eventually
fast sicher (vielleicht können wir das Alterungsproblem für Wort lösen almost
), daher hat es eine niedrige Entropie the aging problem cannot be solved
, für deren Gewissheit nur die Informationen von erforderlich sind . Das Ereignis B The president will die in 50 years
ist jedoch viel unsicherer als A und benötigt daher mehr Informationen, um die Unsicherheiten zu beseitigen.
D.K.L.( A ∥ B ) = ∑ichpEIN( vich) logpEIN( vich) - pEIN( vich) logpB.( vich) ,
D.K.L. beschreibt, wie unterschiedlich B von A aus der Sicht von A ist.
H.( A , B ) = - ∑ichpEIN( vich) logpB.( vich) .
H.( A , B ) = D.K.L.( A ∥ B ) + S.EIN.
S.EINH.( A , B )D.K.L.( A ∥ B )
P.( D )P(model)P(truth)P(truth)P(D)P(model)≈P(D)≈P(truth)
DKL(P(D)∥P(model))DS(D) ist als Konstante festgelegt.