Was ist die GELU-Aktivierung?

17

Ich habe BERT-Artikel durchgearbeitet, in dem GELU (Gaußsche Fehler- Lineareinheit ) verwendet wird, wobei die Gleichung wie folgt lautet:

G E L U (x) = x P (X \leq x) = x Φ (x) .

$GELU(x) = xP(X ≤ x) = xΦ(x).$ das entspricht Könnten Sie die Gleichung vereinfachen und erklären, wie sie angenommen wurde.

0.5 x (1 + t a n h [\sqrt{2 / π} (x + 0.044715 x^{3})])

$0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)])$

activation-function bert mathematics

— thanatoz
quelle

16

GELU-Funktion

Wir können die kumulative Verteilung von $\mathcal{N}(0, 1)$ , dh wie folgt erweitern: $\Phi(x)$

GELU (x) := x P (X \leq x) = x Φ (x) = 0.5 x (1 + erf (\frac{x}{\sqrt{2}}))

$\text{GELU}(x):=x{\Bbb P}(X \le x)=x\Phi(x)=0.5x\left(1+\text{erf}\left(\frac{x}{\sqrt{2}}\right)\right)$

Beachten Sie, dass dies eine Definition ist , keine Gleichung (oder eine Beziehung). Autoren haben einige Begründungen für diesen Vorschlag vorgesehen, eine stochastische zB Analogie , aber mathematisch, das ist nur eine Definition.

Hier ist die Handlung von GELU:

Tanh-Annäherung

Für diese Art von numerischen Approximationen besteht die Schlüsselidee darin, eine ähnliche Funktion zu finden (hauptsächlich basierend auf Erfahrung), sie zu parametrisieren und dann an eine Reihe von Punkten aus der ursprünglichen Funktion anzupassen.

Zu wissen, dass sehr nahe an $\text{erf}(x)$ $\text{tanh}(x)$

und die erste Ableitung von stimmt mit der von bei überein , was , passen wir (oder mit mehr Begriffen) zu einer Menge von Punkten . $\text{erf}(\frac{x}{\sqrt{2}})$ $\text{tanh}(\sqrt{\frac{2}{\pi}}x)$ $x=0$ $\sqrt{\frac{2}{\pi}}$

tanh (\sqrt{\frac{2}{π}} (x + a x^{2} + b x^{3} + c x^{4} + d x^{5}))

$\text{tanh}\left(\sqrt{\frac{2}{\pi}}(x+ax^2+bx^3+cx^4+dx^5)\right)$

(x_{i}, erf (\frac{x_{i}}{\sqrt{2}}))

$\left(x_i, \text{erf}\left(\frac{x_i}{\sqrt{2}}\right)\right)$

Ich habe diese Funktion an 20 Samples zwischen angepasst (unter Verwendung dieser Site ), und hier sind die Koeffizienten: $(-1.5, 1.5)$

Durch Setzen von wurde auf geschätzt . Bei mehr Proben aus einem größeren Bereich (an dieser Stelle sind nur 20 zulässig) liegt der Koeffizient näher bei des . Endlich bekommen wir $a=c=d=0$ $b$ $0.04495641$ $b$ $0.044715$

$\text{GELU}(x)=x\Phi(x)=0.5x\left(1+\text{erf}\left(\frac{x}{\sqrt{2}}\right)\right)\simeq 0.5x\left(1+\text{tanh}\left(\sqrt{\frac{2}{\pi}}(x+0.044715x^3)\right)\right)$

mit dem mittleren Fehlerquadrat für . $\sim 10^{-8}$ $x \in [-10, 10]$

Beachten Sie, dass der Begriff in den folgenden Parametern enthalten gewesen wäre , wenn wir die Beziehung zwischen den ersten Ableitungen nicht verwendet hätten: was weniger schön ist (weniger analytisch, mehr numerisch)! $\sqrt{\frac{2}{\pi}}$

0.5 x (1 + tanh (0.797885 x + 0.035677 x^{3}))

$0.5x\left(1+\text{tanh}\left(0.797885x+0.035677x^3\right)\right)$

Die Parität ausnutzen

Wie von @BookYourLuck vorgeschlagen , können wir die Parität der Funktionen verwenden, um den Raum der Polynome, in denen wir suchen, einzuschränken. Das heißt, da eine ungerade Funktion ist, dh , und auch eine ungerade Funktion ist, befindet sich die Polynomfunktion Inneren sollte auch ungerade sein (sollte nur ungerade Potenzen von ), um $\text{erf}$ $f(-x)=-f(x)$ $\text{tanh}$ $\text{pol}(x)$ $\text{tanh}$ $x$

erf (- x) ≃ tanh (pol (- x)) = tanh (- pol (x)) = - tanh (pol (x)) ≃ - erf (x)

$\text{erf}(-x)\simeq\text{tanh}(\text{pol}(-x))=\text{tanh}(-\text{pol}(x))=-\text{tanh}(\text{pol}(x))\simeq-\text{erf}(x)$

Früher haben wir hatten das Glück , mit (fast) am Ende Null - Koeffizienten für gerade Potenzen und , aber im Allgemeinen, könnte dies zu geringer Qualität Annäherungen führt , dass zum Beispiel hat einen Begriff wie , dass wird durch zusätzliche Ausdrücke (gerade oder ungerade) aufgehoben, anstatt einfach wählen . $x^2$ $x^4$ $0.23x^2$ $0x^2$

Sigmoid-Approximation

$\text{erf}(x)$ $2\left(\sigma(x)-\frac{1}{2}\right)$ $\sim 10^{-4}$ $x \in [-10, 10]$

Hier ist ein Python-Code zum Generieren von Datenpunkten, Anpassen der Funktionen und Berechnen der mittleren quadratischen Fehler:

import math
import numpy as np
import scipy.optimize as optimize


def tahn(xs, a):
    return [math.tanh(math.sqrt(2 / math.pi) * (x + a * x**3)) for x in xs]


def sigmoid(xs, a):
    return [2 * (1 / (1 + math.exp(-a * x)) - 0.5) for x in xs]


print_points = 0
np.random.seed(123)
# xs = [-2, -1, -.9, -.7, 0.6, -.5, -.4, -.3, -0.2, -.1, 0,
#       .1, 0.2, .3, .4, .5, 0.6, .7, .9, 2]
# xs = np.concatenate((np.arange(-1, 1, 0.2), np.arange(-4, 4, 0.8)))
# xs = np.concatenate((np.arange(-2, 2, 0.5), np.arange(-8, 8, 1.6)))
xs = np.arange(-10, 10, 0.001)
erfs = np.array([math.erf(x/math.sqrt(2)) for x in xs])
ys = np.array([0.5 * x * (1 + math.erf(x/math.sqrt(2))) for x in xs])

# Fit tanh and sigmoid curves to erf points
tanh_popt, _ = optimize.curve_fit(tahn, xs, erfs)
print('Tanh fit: a=%5.5f' % tuple(tanh_popt))

sig_popt, _ = optimize.curve_fit(sigmoid, xs, erfs)
print('Sigmoid fit: a=%5.5f' % tuple(sig_popt))

# curves used in https://mycurvefit.com:
# 1. sinh(sqrt(2/3.141593)*(x+a*x^2+b*x^3+c*x^4+d*x^5))/cosh(sqrt(2/3.141593)*(x+a*x^2+b*x^3+c*x^4+d*x^5))
# 2. sinh(sqrt(2/3.141593)*(x+b*x^3))/cosh(sqrt(2/3.141593)*(x+b*x^3))
y_paper_tanh = np.array([0.5 * x * (1 + math.tanh(math.sqrt(2/math.pi)*(x + 0.044715 * x**3))) for x in xs])
tanh_error_paper = (np.square(ys - y_paper_tanh)).mean()
y_alt_tanh = np.array([0.5 * x * (1 + math.tanh(math.sqrt(2/math.pi)*(x + tanh_popt[0] * x**3))) for x in xs])
tanh_error_alt = (np.square(ys - y_alt_tanh)).mean()

# curve used in https://mycurvefit.com:
# 1. 2*(1/(1+2.718281828459^(-(a*x))) - 0.5)
y_paper_sigmoid = np.array([x * (1 / (1 + math.exp(-1.702 * x))) for x in xs])
sigmoid_error_paper = (np.square(ys - y_paper_sigmoid)).mean()
y_alt_sigmoid = np.array([x * (1 / (1 + math.exp(-sig_popt[0] * x))) for x in xs])
sigmoid_error_alt = (np.square(ys - y_alt_sigmoid)).mean()

print('Paper tanh error:', tanh_error_paper)
print('Alternative tanh error:', tanh_error_alt)
print('Paper sigmoid error:', sigmoid_error_paper)
print('Alternative sigmoid error:', sigmoid_error_alt)

if print_points == 1:
    print(len(xs))
    for x, erf in zip(xs, erfs):
        print(x, erf)

Ausgabe:

Tanh fit: a=0.04485
Sigmoid fit: a=1.70099
Paper tanh error: 2.4329173471294176e-08
Alternative tanh error: 2.698034519269613e-08
Paper sigmoid error: 5.6479106346814546e-05
Alternative sigmoid error: 5.704246564663601e-05

— Esmailian
quelle

2

Warum ist die Annäherung erforderlich? Könnten sie nicht einfach die erf-Funktion verwenden?

— SebiSebi

8

Φ (x) = \frac{1}{2} e r f c (- \frac{x}{\sqrt{2}}) = \frac{1}{2} (1 + e r f (\frac{x}{\sqrt{2}}))

$\Phi(x) = \frac12 \mathrm{erfc}\left(-\frac{x}{\sqrt{2}}\right) = \frac12 \left(1 + \mathrm{erf}\left(\frac{x}{\sqrt2}\right)\right)$

e r f

$\mathrm{erf}$

e r f (\frac{x}{\sqrt{2}}) \approx \tanh (\sqrt{\frac{2}{π}} (x + a x^{3}))

$\mathrm{erf}\left(\frac x {\sqrt2}\right) \approx \tanh\left(\sqrt{\frac2\pi} \left(x + a x^3\right)\right)$

a \approx 0.044715

$a \approx 0.044715$

$x$ $[-1, 1]$ $x$

\tanh (x) = x - \frac{x^{3}}{3} + o (x^{3})

$\tanh(x) = x - \frac{x^3}{3} + o(x^3)$

e r f (x) = \frac{2}{\sqrt{π}} (x - \frac{x^{3}}{3}) + o (x^{3}) .

$\mathrm{erf}(x) = \frac{2}{\sqrt{\pi}} \left(x - \frac{x^3}{3}\right) + o(x^3).$

\tanh (\sqrt{\frac{2}{π}} (x + a x^{3})) = \sqrt{\frac{2}{π}} (x + (a - \frac{2}{3 π}) x^{3}) + o (x^{3})

$\tanh\left(\sqrt{\frac2\pi} \left(x + a x^3\right)\right) = \sqrt\frac{2}{\pi} \left(x + \left(a-\frac{2}{3\pi}\right)x^3\right) + o(x^3)$

e r f (\frac{x}{\sqrt{2}}) = \sqrt{\frac{2}{π}} (x - \frac{x^{3}}{6}) + o (x^{3}) .

$\mathrm{erf}\left(\frac x {\sqrt2}\right) = \sqrt\frac2\pi \left(x - \frac{x^3}{6}\right) + o(x^3).$

x^{3}

$x^3$

a \approx 0.04553992412

$a \approx 0.04553992412$

0.044715

$0.044715$

— BookYourLuck
quelle