Als «softmax» getaggte Fragen

Normalisierung der Exponentialfunktion, die einen numerischen Vektor so transformiert, dass alle seine Einträge zwischen 0 und 1 liegen und zusammen 1 ergeben. Sie wird häufig als letzte Schicht eines neuronalen Netzwerks verwendet, das eine Klassifizierungsaufgabe ausführt.

1
Protokollwahrscheinlichkeiten in Bezug auf den Softmax-Klassifikator
In diesem https://cs231n.github.io/neural-networks-case-study/ wird erwähnt, warum "der Softmax-Klassifizierer jedes Element von ff so interpretiert, dass es die (nicht normalisierten) Protokollwahrscheinlichkeiten der drei Klassen enthält". Ich verstehe, warum es nicht normalisiert ist, aber nicht, warum es protokolliert wird. Was bedeutet eine Log-Wahrscheinlichkeit? Warum nicht einfach nicht normalisierte Wahrscheinlichkeiten sagen?

1
Was ist der Gradienten-Log-Normalisierer?
Im Wiki wird die Softmax-Funktion als Gradient-Log-Normalisierer der kategorialen Wahrscheinlichkeitsverteilung definiert . Eine teilweise Erklärung zum Log-Normalizer finden Sie hier , aber wofür steht der Gradient-Log-Normalizer ?
9 softmax 

1
Definition der Softmax-Funktion
Diese Frage wird unter stats.stackexchange.com/q/233658 beantwortet Das logistische Regressionsmodell für die Klassen {0, 1} lautet P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx)P(y=1|x)=exp⁡(wTx)1+exp⁡(wTx)P(y=0|x)=11+exp⁡(wTx) \mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)} Diese Wahrscheinlichkeiten summieren sich eindeutig zu 1. Durch Setzen von …

2
Wie wird die Softmax-Einheit abgeleitet und was bedeutet dies?
Ich versuche zu verstehen, warum die Softmax-Funktion als solche definiert ist: ezjΣK.k = 1ezk= σ( z)ezjΣk=1Kezk=σ(z)\frac{e^{z_{j}}} {\Sigma^{K}_{k=1}{e^{z_{k}}}} = \sigma(z) Ich verstehe, wie dies die Daten normalisiert und richtig auf einen bestimmten Bereich (0, 1) abbildet, aber der Unterschied zwischen den Gewichtswahrscheinlichkeiten variiert eher exponentiell als linear. Gibt es einen Grund, …

2
Derivat von Softmax in Bezug auf Gewichte
Ich bin neu im Deep Learning und versuche, die Ableitung der folgenden Funktion in Bezug auf die Matrix zu berechnen :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Unter Verwendung der Quotientenregel erhalte ich: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.