Vektorisierung des Kreuzentropieverlustes

9

Ich habe es mit einem Problem zu tun, das mit dem Finden des Gradienten der Kreuzentropieverlustfunktion für den Parameter $\theta$ wobei:

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

Wobei und ist ein Vektoreingang. $\hat{y}_{i} = softmax(\theta_i)$ $\theta_i$

Auch $y$ ist ein One - hot - Vektor mit der richtigen Klasse und ist die Vorhersage für jede Klasse unter Verwendung von Softmax - Funktion. $\hat{y}$

Somit kann beispielsweise aufweisen $y_i = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}$ und $\hat{y}_{i} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix}$

Um die partielle Ableitung $\frac{\partial{CE(\theta)}}{\partial{\theta{ik}}} = -{y_{ik} - \hat{y}_{ik}}$

Von dort aus sind für jedes die einzelnen $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}y_{i1} - \hat{y}_{i1}\\y_{i2} - \hat{y}_{i2}\\y_{i3} - \hat{y}_{i3}\\y_{i4} - \hat{y}_{i4}\\y_{i5} - \hat{y}_{i5}\end{pmatrix}$

Dies ist jedoch nicht der Fall, da die Verläufe für alle anderen Zeilen mit Ausnahme der 4. Zeile tatsächlich 0 sein sollten, da wir die Eigenschaft des einen heißen Vektors verwendet haben. Der tatsächliche Gradient sollte also $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}0\\0\\0\\y_{i4} - \hat{y}_{i4}\\0\end{pmatrix}$

Und daher die Gradienten für alle sollte $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \left( \begin{array}{ccc} 0 & 0 & 0 & y_{i4} - \hat{y}_{i4} & 0 \\ 0 & 0 & y_{i3} - \hat{y}_{i3} & 0 & 0 \\ ... \\ 0 & y_{i2} - \hat{y}_{i2} & 0 & 0 & 0 \end{array} \right)$

Aber dies ist nicht gleich . Wir sollten den Gradienten der Kreuzentropiefunktion also nicht als Vektordifferenz zwischen vorhergesagt und ursprünglich bezeichnen. $\hat{y} - y$

Kann jemand dies klarstellen?

UPDATE: Meine Ableitung wurde behoben

$\theta = \left( \begin{array}{c} \theta_{1} \\ \theta_{2} \\ \theta_{3} \\ \theta_{4} \\ \theta_{5} \\ \end{array} \right)$

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

Wobei und ist ein Vektoreingang. $\hat{y}_{i} = softmax(\theta_i)$ $\theta_i$

Auch ist ein One - hot - Vektor mit der richtigen Klasse und ist die Vorhersage für jede Klasse unter Verwendung von Softmax - Funktion. $y$ $\hat{y}$

$\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = - (log(\hat{y}_{k}))$

UPDATE: Der Index wurde aus $y$ und $\hat{y}$ Daher kann beispielsweise hat und $y = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}$ $\hat{y} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix}$

$\theta_{ik}$ $\theta_{i}$ $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = -{y_{k} - \hat{y}_{k}}$

Von dort aus sind für jedes i die einzelnen Teilgradienten ∂ C E ( θ $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \begin{pmatrix}y_{1} - \hat{y}_{1}\\y_{2} - \hat{y}_{2}\\y_{3} - \hat{y}_{3}\\y_{4} - \hat{y}_{4}\\y_{5} - \hat{y}_{5}\end{pmatrix}$

Die oben geschieht , weil $CE(\theta) = -(y_k*log({\hat{y}_{k}}))$ $\hat{y}_{k} = log(softmax(\theta_k)) = \theta_k - log(\sum\nolimits_{j}{exp(\theta_j)})$ $CE(\theta)$ $\theta_i$

$\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = - (\frac{\partial{\theta_k}}{\partial{\theta{i}}} - softmax(\theta_i))$

$\frac{\partial{\theta_k}}{\partial{\theta{i}}} = 0, i \neq k$ $\frac{\partial{\theta_k}}{\partial{\theta{i}}} = 1, i = k$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \hat{y} - y$

machine-learning neural-networks

— Shubhanshu Mishra
quelle

2

Nein, die Farbverläufe sollten für die anderen Komponenten nicht Null sein. Wenn Ihre Vorhersage ist $\hat y_{ij}$ $i,j$ $y_{ij}=0$ $\hat y_{ij}$

— Neil G.
quelle

Aber

{\hat{y}}_{i j}

$\hat{y}_{ij}$

y_{i j}

$y_{ij}$

y_{i}

$y_i$

\frac{\partial C E (θ)}{\partial θ i j} = 0, \forall j \neq k

$\frac{\partial{CE(\theta)}}{\partial{\theta{ij}}} = 0, \forall j \neq k$

y_{i k} = 1

$y_{ik} = 1$

1

Vielen Dank für Ihre Eingabe @ neil-g Ich konnte meine Ableitung des Gradienten korrigieren.

— Shubhanshu Mishra

15

Das Folgende ist der gleiche Inhalt wie die Bearbeitung, jedoch in (für mich) etwas klarerem Schritt-für-Schritt-Format:

Wir versuchen zu beweisen, dass:

$\frac{\partial{CE}}{\partial{\theta}} = \hat{y} - y$

gegeben

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

und

$\hat{y}_{i} = \frac{exp(\theta_i)}{\sum\nolimits_{j}{exp(\theta_j)}}$

$y_{j} = 0$ $j \neq k$ $y_k = 1$

$CE(\theta) = -\ log({\hat{y}_{k}})$

$= - \ log(\frac{exp(\theta_k)}{\sum\nolimits_{j}{exp(\theta_j)}})$

$= - \ \theta_k + log(\sum\nolimits_{j}{exp(\theta_j)})$

$\frac{\partial{CE}}{\partial{\theta}} = - \frac{\partial{\theta_k}}{\partial{\theta}} + \frac{\partial}{\partial{\theta}} log(\sum\nolimits_{j}{exp(\theta_j))}$

$\frac{\partial{\theta_k}}{\partial{\theta_k}} = 1$ $\frac{\partial{\theta_k}}{\partial{\theta_q}} = 0$ $q \neq k$

$\frac{\partial{\theta_k}}{\partial{\theta}} = y$

$\theta$

$\frac{\partial}{\partial{\theta_i}} log(\sum\nolimits_{j}{exp(\theta_j))} = \frac{exp(\theta_i)}{\sum\nolimits_{j}{exp(\theta_j)}} = \hat{y}_{i}$

Daher,

$\frac{\partial{CE}}{\partial{\theta}} = \frac{\partial}{\partial{\theta}} log(\sum\nolimits_{j}{exp(\theta_j))} - \frac{\partial{\theta_k}}{\partial{\theta}} = \hat{y}$

— Maarten
quelle