Diese Frage ist sehr interessant. Ich kenne den genauen Grund nicht, aber ich denke, der folgende Grund könnte verwendet werden, um die Verwendung der Exponentialfunktion zu erklären. Dieser Beitrag ist inspiriert von der statistischen Mechanik und dem Prinzip der maximalen Entropie.
Ich werde dies anhand eines Beispiels mit N Bildern erläutern , die aus n1 Bildern der Klasse C1 , n2 Bildern der Klasse C2 , ... und nK Bildern der Klasse CK . Dann gehen wir davon aus, dass unser neuronales Netzwerk in der Lage war anzuwenden auf unseren Bildern nicht - lineare Transformation, so dass wir ein ‚Energieniveau‘ können zuweisen Ek für alle Klassen. Wir gehen davon aus, dass diese Energie nichtlinear ist, wodurch wir die Bilder linear trennen können.
Die mittlere Energie E¯ ist mit dem anderen Energien bezogen Ek durch die folgende Beziehung
NE¯=∑k=1KnkEk.(∗)
Gleichzeitig sehen wir, dass die Gesamtanzahl der Bilder als folgende Summe berechnet werden kann
N=∑k=1Knk.(∗∗)
Die Grundidee des Maximum-Entropy-Prinzips ist, dass die Anzahl der Bilder in den entsprechenden Klassen so verteilt wird, dass die Anzahl der möglichen Kombinationen für eine gegebene Energieverteilung maximiert wird. Einfacher ausgedrückt wird das System nicht sehr wahrscheinlich in einen Zustand übergehen, in dem wir nur die Klasse n1 es wird auch nicht in einen Zustand übergehen, in dem wir in jeder Klasse die gleiche Anzahl von Bildern haben. Aber warum ist das so? Wenn alle Bilder in einer Klasse wären, hätte das System eine sehr niedrige Entropie. Der zweite Fall wäre ebenfalls eine sehr unnatürliche Situation. Es ist wahrscheinlicher, dass wir mehr Bilder mit mäßiger Energie und weniger Bilder mit sehr hoher und sehr niedriger Energie haben.
Die Entropie nimmt mit der Anzahl der Kombinationen zu, in denen wir die N Bilder mit entsprechender Energie in die n1 , n2 , ..., nK aufteilen können . Diese Anzahl von Kombinationen ist durch den Multinomialkoeffizienten gegeben
(N!n1!,n2!,…,nK!)=N!∏Kk=1nk!.
Wir werden versuchen, diese Zahl zu maximieren, vorausgesetzt, wir haben unendlich viele Bilder N→∞ . Seine Maximierung hat aber auch Gleichheitsbeschränkungen (∗) und (∗∗) . Diese Art der Optimierung wird als eingeschränkte Optimierung bezeichnet. Wir können dieses Problem mithilfe der Methode der Lagrange-Multiplikatoren analytisch lösen. Wir führen die Lagrange-Multiplikatoren β und α für die Gleichheitsbedingungen ein und wir führen die Lagrange-Funktion L(n1,n2,…,nk;α,β) .
L(n1,n2,…,nk;α,β)=N!∏Kk=1nk!+β[∑k=1KnkEk−NE¯]+α[N−∑k=1Knk]
Da wir N→∞ haben, können wir auch nk→∞ annehmen und die Stirling-Näherung für die Fakultät verwenden
lnn!=nlnn−n+O(lnn).
Beachten Sie, dass diese Näherung (die ersten beiden Terme) nur asymptotisch ist. Dies bedeutet jedoch nicht, dass diese Näherung gegen lnn! konvergiert ! für n→∞ .
Die partielle Ableitung der Lagrange-Funktion in Bezug auf nk~ führt zu
∂L∂nk~=−lnnk~−1−α+βEk~.
Wenn wir diese partielle Ableitung auf Null setzen, können wir finden
nk~=exp(βEk~)exp(1+α).(∗∗∗)
(∗∗)
exp(1+α)=1N∑k=1Kexp(βEk).
If we put this back into (∗∗∗) we get something that should remind us of the softmax function
nk~=exp(βEk~)1N∑Kk=1exp(βEk).
If we define nk~/N as the probability of class Ck~ by pk~ we will obtain something that is really similar to the softmax function
pk~=exp(βEk~)∑Kk=1exp(βEk).
Hence, this shows us that the softmax function is the function that is maximizing the entropy in the distribution of images. From this point, it makes sense to use this as the distribution of images. If we set βEk~=wTkx we exactly get the definition of the softmax function for the kth output.