So würde ich den Kreuzentropieverlust ausdrücken :
L(X,Y)=−1n∑i=1ny(i)lna(x(i))+(1−y(i))ln(1−a(x(i)))
Hier ist die Menge der Eingabebeispiele im Trainingsdatensatz und ist der entsprechende Satz von Beschriftungen für diese Eingabebeispiele. Das repräsentiert die Ausgabe des neuronalen Netzwerks bei gegebener Eingabe .X={x(1),…,x(n)}Y={y(1),…,y(n)}a(x)x
Jedes der ist entweder 0 oder 1, und die Ausgangsaktivierung ist typischerweise unter Verwendung eines logistischen Sigmoid auf das offene Intervall (0, 1) beschränkt . Zum Beispiel würde für ein einschichtiges Netzwerk (was einer logistischen Regression entspricht) die Aktivierung durch wobei ist Gewichtsmatrix und ist ein Bias-Vektor. Für mehrere Ebenen können Sie die Aktivierungsfunktion auf etwas wie wobei und die Gewichtsmatrix und Vorspannung für die erste Schicht sind undy(i)a(x)
a(x)=11+e−Wx−b
Wba(x)=11+e−Wz(x)−bz(x)=11+e−Vx−c
Vcz(x) ist die Aktivierung der verborgenen Schicht im Netzwerk.
Ich habe das hochgestellte (i) verwendet, um Beispiele zu bezeichnen, weil ich fand, dass es in Andrew Ngs Kurs für maschinelles Lernen ziemlich effektiv ist. Manchmal drücken Leute Beispiele als Spalten oder Zeilen in einer Matrix aus, aber die Idee bleibt dieselbe.