Die von Ihnen vorgeschlagene Funktion hat eine Singularität, wenn die Summe der Elemente Null ist.
Angenommen, Ihr Vektor ist [−1,13,23] . Dieser Vektor hat eine Summe von 0, daher ist keine Division definiert. Die Funktion ist hier nicht unterscheidbar.
Wenn eines oder mehrere der Elemente des Vektors negativ ist, die Summe jedoch ungleich Null ist, ist Ihr Ergebnis keine Wahrscheinlichkeit.
Angenommen, Ihr Vektor ist [−1,0,2] . Dies hat eine Summe von 1, so dass das Anwenden Ihrer Funktion zu [−1,0,2] ist kein Wahrscheinlichkeitsvektor, da sie negative Elemente und Elemente über 1 enthält.
Aus einer breiteren Sicht können wir die spezifische Form der Softmax-Funktion aus der Perspektive der Ausweitung der binären logistischen Regression auf den Fall von drei oder mehr kategorialen Ergebnissen motivieren.
Wenn Sie beispielsweise Absolutwerte oder Quadrate verwenden, wie in den Kommentaren vorgeschlagen, bedeutet dies, dass −x und x die gleiche vorhergesagte Wahrscheinlichkeit haben. Dies bedeutet, dass das Modell nicht identifiziert wird . Im Gegensatz dazu ist exp(x) für alle reellen x monoton und positiv , sodass das Softmax-Ergebnis (1) ein Wahrscheinlichkeitsvektor ist und (2) das multinomiale logistische Modell identifiziert wird.