Ich beobachtete, dass Caffe (ein Deep-Learning-Framework) die Softmax-Verlustschicht SoftmaxWithLoss
als Ausgabeschicht für die meisten Modellbeispiele verwendete .
Soweit ich weiß, ist die Softmax-Verlustschicht die Kombination aus multinomialer logistischer Verlustschicht und Softmax-Schicht .
Von Caffe sagten sie das
Die Berechnung des Gradienten der Softmax-Verlustschicht ist numerisch stabiler
Diese Erklärung ist jedoch nicht die Antwort, die ich möchte. Die Erklärung besteht lediglich darin, die Kombination aus multinomialer logistischer Verlustschicht und Softmax-Verlustschicht anstelle von Schicht für Schicht zu vergleichen. Aber nicht mit anderen Arten von Verlustfunktionen vergleichen.
Ich würde jedoch gerne mehr über die Unterschiede / Vor- und Nachteile dieser 3 Fehlerfunktionen erfahren, nämlich Multinomial Logistic Loss , Cross Entropy (CE) und Square Error (SE) in der Perspektive des überwachten Lernens. Irgendwelche unterstützenden Artikel?
y-t
. willamette.edu/~gorr/classes/cs449/classify.html