Sie benötigen einige Bedingungen, um die Äquivalenz zwischen der Minimierung der Kreuzentropie und der Minimierung der KL-Divergenz zu behaupten. Ich werde Ihre Frage in den Kontext von Klassifizierungsproblemen stellen, bei denen Kreuzentropie als Verlustfunktion verwendet wird.
S.( v ) = - ∑ichp ( vich) logp ( vich) ,
p ( vich)vichS.( v )
Zum Beispiel ist das Ereignis A I will die eventuallyfast sicher (vielleicht können wir das Alterungsproblem für Wort lösen almost), daher hat es eine niedrige Entropie the aging problem cannot be solved, für deren Gewissheit nur die Informationen von erforderlich sind . Das Ereignis B The president will die in 50 yearsist jedoch viel unsicherer als A und benötigt daher mehr Informationen, um die Unsicherheiten zu beseitigen.
D.K.L.( A ∥ B ) = ∑ichpEIN( vich) logpEIN( vich) - pEIN( vich) logpB.( vich) ,
D.K.L. beschreibt, wie unterschiedlich B von A aus der Sicht von A ist.
H.( A , B ) = - ∑ichpEIN( vich) logpB.( vich) .
H.( A , B ) = D.K.L.( A ∥ B ) + S.EIN.
S.EINH.( A , B )D.K.L.( A ∥ B )
P.( D )P(model)P(truth)P(truth)P(D)P(model)≈P(D)≈P(truth)
DKL(P(D)∥P(model))DS(D) ist als Konstante festgelegt.