Ich weiß, dass dies ein später Beitrag ist, aber ich habe das Gefühl, dass es immer noch sinnvoll wäre, diejenigen zu rechtfertigen, die zufällig hier landen.
Du liegst nicht ganz falsch. Es ist bis zu einem gewissen Grad willkürlich, aber vielleicht ist willkürlich das falsche Wort. Es ist eher eine Designwahl. Lassen Sie mich erklären.
Es stellt sich heraus, dass der Softmax tatsächlich die Verallgemeinerung der Sigmoid-Funktion ist, bei der es sich um eine Bernoulli-Ausgabeeinheit (Ausgang 0 oder 1) handelt:
[1+exp(−z)]−1
Aber woher kommt die Sigmoid-Funktion?
Nun, es stellt sich heraus, dass viele verschiedene Wahrscheinlichkeitsverteilungen, einschließlich der Bernoulli-, Poisson-Verteilung, Gaußschen usw., einem sogenannten Generalized Linear Model (GLM) folgen. Das heißt, sie können ausgedrückt werden in Form von:
P(y;η)=b(y)exp[ηTT(y)−a(η)]
Ich werde nicht auf all diese Parameter eingehen, aber Sie können dies sicherlich untersuchen.
Beachten Sie das folgende Beispiel, wie sich eine Bernoulli-Verteilung in der GLM-Familie befindet:
P(y=1)=ϕP(y=0)=1−ϕP(y)=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(ϕ)+log(1−ϕ)−ylog(1−ϕ))=exp(ylog(ϕ1−ϕ)+log(1−ϕ))
Sie können das in diesem Fall sehen,
b(y)=1T(y)=yη=log(ϕ1−ϕ)a(η)=−log(1−ϕ)
Beachten Sie, was passiert, wenn wir nach in Bezug auf lösen :ϕη
η=log(ϕ1−ϕ)eη=ϕ1−ϕe−η=1−ϕϕ=1ϕ−1e−η+1=1ϕϕ=[exp(−η)+1]−1
Um also , nehmen wir das Sigmoid von . Die Wahl des Designs kommt ins Spiel, wenn wir annehmen, dass , wobei Ihre Gewichte und Ihre Daten sind, die wir beide als annehmen . Wenn wir diese Annahme machen, können wir um zu approximieren .ϕ=P(y=1)ηη=wTxwx∈Rnwϕ
Wenn Sie denselben Prozess für eine Multinoulli-Distribution durchführen würden, würden Sie am Ende die Softmax-Funktion ableiten.