Was ist der Gradienten-Log-Normalisierer?

Im Wiki wird die Softmax-Funktion als Gradient-Log-Normalisierer der kategorialen Wahrscheinlichkeitsverteilung definiert . Eine teilweise Erklärung zum Log-Normalizer finden Sie hier , aber wofür steht der Gradient-Log-Normalizer ?

softmax

— Taschuhka
quelle

Unter Verwendung der Notation von der Wikipedia-Seite ( https://en.wikipedia.org/wiki/Exponential_family ) ist eine Exponentialfamilie eine Familie von Wahrscheinlichkeitsverteilungen mit pmfs / pdfs, die als geschrieben werden können (wobei zu beachten ist, dass $\theta$ , $x$ ein Vektor sein kann bewertet):

f_{θ} (x) = h (x) \exp [η (θ)^{T.} t (x) - - EIN (θ)]]

$f_{\theta}(x)=h(x)\exp[\eta(\theta)^Tt(x)-A(\theta)]$ wobei

η (θ) = η

$\eta(\theta)=\eta$ die natürlichen Parameter sind,

t (x)

$t(x)$ sind die ausreichenden Statistiken, und

A (θ)

$A(\theta)$ ist der Protokollnormalisierer (manchmal als Protokollpartitionsfunktion bezeichnet). Der Grund

A (θ)

$A(\theta)$ wird das Protokoll normalizer genannt, da es im kontinuierlichen Fall , dass überprüft werden kann, für diese eine gültige pdf zu sein, müssen wir haben

EIN (θ) = Log [\int h (x) \exp [η (θ)^{T.} t (x)]] d x]],

$A(\theta)=\log\left[\int h(x)\exp[\eta(\theta)^Tt(x)]dx\right],$ und im diskreten Fall müssen wir

haben, damit dies eine gültige pmf ist

EIN (θ) = Log [\sum_{x} h (x) \exp [η (θ)^{T.} t (x)]]]] .

$A(\theta)=\log\left[\sum_x h(x)\exp[\eta(\theta)^Tt(x)]\right].$ In jedem Fall stellen wir fest, dass

\int h (x) \exp [η (θ)^{T} t (x)] d x

$\int h(x)\exp[\eta(\theta)^Tt(x)]dx$ und

sind die Normalisierungskonstanten der Verteilungen, daher der Name Log Normalizer.

\sum_{x} h (x) \exp [η (θ)^{T} t (x)]

$\sum_x h(x)\exp[\eta(\theta)^Tt(x)]$

Um nun die spezifische Beziehung zwischen der Softmax-Funktion und der dimensionalen kategorialen Verteilung zu sehen, müssen wir eine spezifische Parametrisierung der Verteilung verwenden. Es sei nämlich so, dass und (wobei $k$ $\theta_1,\cdots,\theta_{k-1}$ $0<\theta_1,\cdots,\theta_{k-1}$ , und definiere $\sum_{i=1}^{k-1}\theta_i<1$ $\theta_k=1-\sum_{i=1}^{k-1}\theta_i$ ). Die pmf für diese Verteilung ist ( sei ein heißer Vektor, dh und für ): $\theta=(\theta_1,\cdots,\theta_{k})$ $x=(x_1,\cdots,x_{k})$ $x_i=1$ $x_j=0$ $i\neq j$ Um dies als Exponentialfamilie zu schreiben, ist zu beachten, dass,,

f_{θ} (x) = \prod_{ich = 1}^{k} θ_{ich}^{x_{ich}} .

$f_{\theta}(x)=\prod_{i=1}^k\theta_i^{x_i}.$

h (x) = 1

$h(x)=1$

η (θ) = (\log [θ_{1} / θ_{k}], \dots, \log [θ_{k - 1} / θ_{k}], 0)

$\eta(\theta)=(\log[\theta_1/\theta_k],\cdots, \log[\theta_{k-1}/\theta_k],0)$

und

, also:

t (x) = (x_{1}, \dots, x_{k})

$t(x)=(x_1,\cdots,x_{k})$

A (θ) = - \log [θ_{k}]

$A(\theta)=-\log[\theta_k]$

f_{θ} (x) = \exp [(Log [θ_{1} /. θ_{k}]], \dots, Log [θ_{k - - 1} /. θ_{k}]], 0)^{T.} (x_{1}, \dots, x_{k}) - - (- - Log [θ_{k}]])]] .

$f_{\theta}(x)=\exp[(\log[\theta_1/\theta_k],\cdots, \log[\theta_{k-1}/\theta_k],0)^T(x_1,\cdots,x_{k})-(-\log[\theta_k])].$

Schreiben wir nun suggestiv $\eta(\theta_i)=\log[\theta_i/\theta_k]=\eta_i$ $\theta_i=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}}$

EIN (η) = - - Log [\frac{e^{η_{k}}}{\sum_{j = 1}^{k} e^{η_{j}}}]] = - - Log [\frac{1}{\sum_{j = 1}^{k} e^{η_{j}}}]] = Log [\sum_{j = 1}^{k} e^{η_{j}}]] .

$A(\eta)=-\log\left[\frac{e^{\eta_k}}{\sum_{j=1}^ke^{\eta_j}}\right]= -\log\left[\frac{1}{\sum_{j=1}^ke^{\eta_j}}\right]=\log\left[\sum_{j=1}^ke^{\eta_j}\right].$

η_{i}

$\eta_i$

\frac{\partial}{\partial η_{ich}} EIN (η) = \frac{e^{η_{ich}}}{\sum_{j = 1}^{k} e^{η_{j}}},

$\frac{\partial}{\partial \eta_i}A(\eta)=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}},$

\nabla EIN (η) = [\frac{e^{η_{1}}}{\sum_{j = 1}^{k} e^{η_{j}}}, \dots, \frac{e^{η_{k}}}{\sum_{j = 1}^{k} e^{η_{j}}}]] .

$\nabla A(\eta)=\left[\frac{e^{\eta_1}}{\sum_{j=1}^ke^{\eta_j}},\cdots,\frac{e^{\eta_k}}{\sum_{j=1}^ke^{\eta_j}}\right].$

— Aleshing
quelle

Beeindruckend!! Das war eine großartige Erklärung und hat absolut Sinn. Vielen Dank :)

— Tashuhka

Ich habe lange nach dieser Ableitung gesucht! Ich frage mich, in welchem Kontext mussten Sie dieses Wissen entwickeln? Hast du das als Teil eines Kurses oder Lehrbuchs gesehen? Ich fand im Internet immer wieder Hinweise auf diese Beziehung, aber niemand gab tatsächlich die Details an.

— Zipzapboing

@zipzapboing Ich kannte diese Eigenschaft des Softmax erst, als ich die Frage von OP sah! Ich hatte jedoch einen Casella- und Berger-Level-Statistikkurs (in dem exponentielle Familien und einige ihrer anderen Eigenschaften vorgestellt werden) unter meinem Gürtel, der es mir ermöglichte zu wissen, dass der Nachweis der Eigenschaft mit der richtigen Parametrisierung nicht so schwierig wäre.

— Aleshing