die Beziehung zwischen der Maximierung der Wahrscheinlichkeit und der Minimierung der Kreuzentropie

Es gibt eine Aussage, dass die Maximierung der Wahrscheinlichkeit gleichbedeutend mit der Minimierung der Kreuzentropie ist. Gibt es Beweise für diese Aussage?

— user3269
quelle

Für Etiketten , die Wahrscheinlichkeit von einigen Binärdaten unter dem Bernoulli - Modell mit Parametern IS während die log-Wahrscheinlichkeit $y_i\in \{0,1\}$ $\theta$

L (θ) = \prod_{i = 1}^{n} p (y_{i} = 1 | θ)^{y_{i}} p (y_{i} = 0 | θ)^{1 - y_{i}}

$\mathcal{L}(\theta) = \prod_{i=1}^n p(y_i=1|\theta)^{y_i}p(y_i=0|\theta)^{1-y_i}\\$

\log L (θ) = \sum_{i = 1}^{n} y_{i} \log p (y = 1 | θ) + (1 - y_{i}) \log p (y = 0 | θ)

$\log\mathcal{L}(\theta) = \sum_{i=1}^n y_i\log p(y=1|\theta) + (1-y_i)\log p(y=0|\theta)$

Und die binäre Kreuzentropie ist

L (θ) = - \frac{1}{n} \sum_{i = 1}^{n} y_{i} \log p (y = 1 | θ) + (1 - y_{i}) \log p (y = 0 | θ)

$L(\theta) = -\frac{1}{n}\sum_{i=1}^n y_i\log p(y=1|\theta) + (1-y_i)\log p(y=0|\theta)$

Es ist klar, dass . $\log \mathcal{L}(\theta) = -nL(\theta)$

Wir wissen, dass der optimale Wert für beide gleich ist, weil wir beobachten können, dass wir für jedes das nicht optimal ist, , das für jedes . (Denken Sie daran, wir möchten die Kreuzentropie minimieren , damit das optimale das geringste .) $\theta^*$ $\theta$ $\frac{1}{n} L(\theta) > \frac{1}{n} L(\theta^*)$ $\frac{1}{n} > 0$ $\theta^*$ $L(\theta^*)$

Ebenso wissen wir, dass der optimale Wert für und der gleiche ist, da eine monoton ansteigende Funktion für , damit wir schreiben können . (Denken Sie daran, wir möchten die Wahrscheinlichkeit maximieren , damit das optimale das meiste .) $\theta^*$ $\log \mathcal{L}(\theta)$ $\mathcal{L}(\theta)$ $\log(x)$ $x \in \mathbb{R}^+$ $\log \mathcal{L}(\theta) < \log\mathcal{L}(\theta^*)$ $\theta^*$ $\mathcal{L}(\theta^*)$

Einige Quellen lassen das aus der Kreuzentropie weg. Dies ändert natürlich nur den Wert von , nicht aber den Ort der Optima, so dass aus Sicht der Optimierung die Unterscheidung nicht wichtig ist. Das negative Vorzeichen ist jedoch offensichtlich wichtig, da es den Unterschied zwischen Maximieren und Minimieren darstellt! $\frac{1}{n}$ $L(\theta)$

— Sycorax sagt Reinstate Monica
quelle