Warum verwendet die Logistikfunktion e anstelle von 2?

Die Sigmoidfunktion könnte als Aktivierungsfunktion beim maschinellen Lernen verwendet werden.

S (x) = \frac{1}{1 + e^{- x}} = \frac{e^{x}}{e^{x} + 1} .

$S(x)={\frac {1}{1+e^{-x}}}={\frac {e^{x}}{e^{x}+1}}.$

Wenn e durch 2 ersetzt wird,

def sigmoid2(z):
    return 1/(1+2**(-z))
x = np.arange(-9,9,dtype=float)
y = sigmoid2(x)
plt.scatter(x,y)

Die Handlung sieht ähnlich aus.

Warum wird die Logistikfunktion verwendet? $e$ eher als 2?

machine-learning deep-learning

— JJJohn
quelle

Antworten:

Da Sie die Protokollwahrscheinlichkeit später minimieren werden, gibt es tatsächlich keinen großen Unterschied zwischen $\log 2^x=x * \log2$ und $\log e^x=x$ . Sie sehen, der Unterschied ist einfach eine Konstante.
Trotzdem könnte man argumentieren zu verwenden $2^x$ anstatt $e^x$ und auch verwenden $\log_2$ anstatt $\log$ wenn es um den Optimierungsschritt geht. In der Tat ist es möglich zu verwenden $2^x$ und auch viele andere Funktionen, die einige gewünschte Eigenschaften zeigen. Welche sind:

$\lim\limits_{x \rightarrow \infty}{f(x)}=1$
$\lim\limits_{x \rightarrow -\infty}{f(x)}=0$
$f(x) = -f(-x) + 1$ (symmetrisch in $(0, 0.5)$

Hier ist ein Beispiel für geeignete Funktionen aus Wikipedia.

— Andreas Schau
quelle

Ich denke , es ist auch erwähnenswert, dass ein schöner Grund zum Gebrauch als die Basis ist , dass die Ableitung von ist . Ohne die eigentliche Berechnung würde sich die Formel, wenn die Basis anders wäre, nur wieder um eine Konstante unterscheiden, aber es ist eine nette Eigenschaft, die spezifisch für .

e

$e$

σ (x) = \frac{1}{1 + e^{- x}}

$\sigma(x)=\frac{1}{1+e^{-x}}$

σ^{'} (x) = σ (x) (1 - σ (x))

$\sigma'(x)=\sigma(x)(1-\sigma(x))$

e

$e$

— Calvin Godfrey

Gleiches gilt für bei Verwendung von .

2^{x}

$2^x$

\log_{2}

$\log_2$

— Andreas Look

@AndreasLook Ich bin mir nicht sicher, was du meinst. Wenn Sie die Ableitung einen zusätzlichen Faktor von (wie Calvin Godfrey sagte).

2^{- x}

$2^{-x}$

\ln (2)

$\ln(2)$

— sfmiller940

Nein, überprüfen Sie den binären Logarithmus. .

\log_{2} (2^{x}) = x

$\log_2 (2^x)=x$

— Andreas Look

Es gibt also viele Funktionen, die sigmoid aussehen, einschließlich der von Ihnen erwähnten 2, aber es gibt Gründe, warum Besonderes ist. Der Hauptgrund dafür ist, dass die logistische Funktion ursprünglich zur Modellierung des Bevölkerungswachstums verwendet wurde. Und Populationen können sich ähnlich wie Zinsen im Laufe der Zeit verstärken. Aus diesem Grund wird das zu einem sehr natürlichen Objekt. Aus theoretischen Gründen bezüglich der kanonischen Verknüpfungsfunktion eines glm ist die Logistik eines der theoretisch am einfachsten zu bearbeitenden Objekte, mit denen es einfach ist, Dinge zu beweisen. $e$ $e$

— Anonymer Emu
quelle

Danke für deine Antwort. Was bedeutet "kanonische Verknüpfungsfunktion eines glm"?

— JJJohn

@baojieqh Für alle verallgemeinerten linearen Modelle muss ein Mitglied der exponentiellen Verteilungsfamilie angegeben werden. Diese Verteilungen haben alle eine Eigenschaft gemeinsam, in der sie so geschrieben werden können, dass eine Funktion des Skalierungsparameters der Verteilung "von selbst" in einem Exponenten sitzt (und die Funktion nur eine Funktion des Skalierungsparameters ist). Diese Funktion wird als kanonische Verknüpfungsfunktion bezeichnet. Für die Bernoulli / Binomial-Verteilung, bei der der Skalierungsparameter p ist, stellt sich heraus, dass diese Funktion ln (p / (1-p)) ist, was die Logit-Link-Funktion ist.

— Aranglol

Daher ist die kanonische Verknüpfungsfunktion für die logistische Regression, die eine Bernoulli-Verteilung für jede Zeile voraussetzt, die logit-Verknüpfung. Es gibt auch andere theoretischere Eigenschaften, die die kanonische Verknüpfungsfunktion wünschenswert machen. Aber es ist technisch nicht notwendig, es zu verwenden, Sie könnten zum Beispiel das Probit verwenden.

— Aranglol

@aranglol danke für Ihre Kommentare, werfen Sie bitte einen Blick auf diesen Link math.stackexchange.com/q/3253634/656371

— JJJohn

Dies scheint nur ein handwedelnder Appell an die Behauptung zu sein, dass " Besonderes ist", ohne eine Begründung dafür zu geben, warum Besonderes ist. Wirklich ist die einzige Besonderheit die Bequemlichkeit, dass , was bedeutet, dass .

e

$e$

e

$e$

\frac{d}{d x} a^{x} = a^{x} \ln a

$\tfrac{d}{dx}a^x=a^x\ln a$

\frac{d}{d x} e^{x} = e^{x}

$\tfrac{d}{dx}e^x=e^x$

— David Richerby

Es kommt von der Grundannahme des Modells, dass es ein kontinuierliches / latentes / nicht beobachtbares , das sich irgendwie auf die beobachteten Werte von bezieht . Das Modell nimmt ferner an, dass wenn das Signal von über einem bestimmten Schwellenwert liegt, und ansonsten . Die dritte und letzte Annahme ist, dass die zugrunde liegende Verteilung von die logistische Verteilung ist. Sobald Sie diese Annahmen haben, ist es nur eine Frage der Algebra, das Modell abzuleiten. $Y^*$ $Y$ $Y=1$ $Y^*$ $Y=0$ $Y*$

Weitere Details finden Sie in meinem Blog .

— Yossi Levy
quelle