Antworten:
Für Etiketten , die Wahrscheinlichkeit von einigen Binärdaten unter dem Bernoulli - Modell mit Parametern IS
während die log-Wahrscheinlichkeit
Und die binäre Kreuzentropie ist
Es ist klar, dass .
Wir wissen, dass der optimale Wert für beide gleich ist, weil wir beobachten können, dass wir für jedes das nicht optimal ist, , das für jedes . (Denken Sie daran, wir möchten die Kreuzentropie minimieren , damit das optimale das geringste .)
Ebenso wissen wir, dass der optimale Wert für und der gleiche ist, da eine monoton ansteigende Funktion für , damit wir schreiben können . (Denken Sie daran, wir möchten die Wahrscheinlichkeit maximieren , damit das optimale das meiste .)
Einige Quellen lassen das aus der Kreuzentropie weg. Dies ändert natürlich nur den Wert von , nicht aber den Ort der Optima, so dass aus Sicht der Optimierung die Unterscheidung nicht wichtig ist. Das negative Vorzeichen ist jedoch offensichtlich wichtig, da es den Unterschied zwischen Maximieren und Minimieren darstellt!