Eine Liste von Kostenfunktionen, die in neuronalen Netzen neben Anwendungen verwendet werden

133

Welche allgemeinen Kostenfunktionen werden bei der Bewertung der Leistung neuronaler Netze verwendet?

Einzelheiten

(Fühlen Sie sich frei, den Rest dieser Frage zu überspringen. Ich beabsichtige hier lediglich, Klarheit über die Notation zu schaffen, die Antworten verwenden können, um sie für den allgemeinen Leser verständlicher zu machen.)

Ich denke, es wäre nützlich, eine Liste der gängigen Kostenfunktionen zu haben, neben ein paar Möglichkeiten, wie sie in der Praxis angewendet wurden. Wenn sich also andere dafür interessieren, ist ein Community-Wiki wahrscheinlich der beste Ansatz, oder wir können es entfernen, wenn es nicht zum Thema gehört.

Notation

Zunächst möchte ich eine Notation definieren, die wir alle verwenden, um diese zu beschreiben, damit die Antworten gut zueinander passen.

Diese Notation stammt aus Neilsens Buch .

Ein Feedforward-Neuronales Netzwerk besteht aus mehreren miteinander verbundenen Neuronenschichten. Dann nimmt es eine Eingabe auf, die Eingabe "sickert" durch das Netzwerk und dann gibt das neuronale Netzwerk einen Ausgabevektor zurück.

Nennen Sie formal die Aktivierung (aka Ausgabe) des -Neurons in der , wobei das -Element im Eingabevektor ist. $a^i_j$ $j^{th}$ $i^{th}$ $a^1_j$ $j^{th}$

Dann können wir die Eingabe der nächsten Ebene über die folgende Beziehung mit der vorherigen verknüpfen:

$a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j)$

$\sigma$ ist die Aktivierungsfunktion,

$w^i_{jk}$ ist das Gewicht vom Neuron in der Schicht zum Neuron in der Schicht, $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$

$b^i_j$ ist die Vorspannung des Neurons in der Schicht, und $j^{th}$ $i^{th}$

$a^i_j$ repräsentiert den Aktivierungswert des -Neurons in der Schicht. $j^{th}$ $i^th$

Manchmal schreiben wir , um , mit anderen Worten, den Aktivierungswert eines Neurons, bevor wir die Aktivierungsfunktion anwenden . $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

Bildbeschreibung hier eingeben

Für eine präzisere Notation können wir schreiben

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

Um mit dieser Formel die Ausgabe eines Feedforward-Netzwerks für eine Eingabe berechnen , setzen Sie und berechnen Sie dann , , ..., , wobei m die Anzahl der Schichten ist. $I \in \mathbb{R}^n$ $a^1 = I$ $a^2$ $a^3$ $a^m$

Einführung

Eine Kostenfunktion ist ein Maß dafür, "wie gut" ein neuronales Netzwerk in Bezug auf die gegebene Trainingsstichprobe und die erwartete Ausgabe war. Es kann auch von Variablen wie Gewichten und Verzerrungen abhängen.

Eine Kostenfunktion ist ein einzelner Wert, kein Vektor, da sie die Leistung des gesamten neuronalen Netzwerks bewertet.

Insbesondere hat eine Kostenfunktion die Form

C (W, B, S^{r}, E^{r})

$C(W, B, S^r, E^r)$

Wobei die Gewichte unseres neuronalen Netzwerks ist, die Vorspannung unseres neuronalen Netzwerks ist, die Eingabe einer einzelnen Trainingsprobe ist und die gewünschte Ausgabe dieser Trainingsprobe ist. Beachten Sie, dass diese Funktion für jedes Neuron in Schicht möglicherweise auch von und abhängig sein kann, da diese Werte von , und abhängen . $W$ $B$ $S^r$ $E^r$ $y^i_j$ $z^i_j$ $j$ $i$ $W$ $B$ $S^r$

Bei der Backpropagation wird die Kostenfunktion verwendet, um den Fehler unserer Ausgabeschicht über zu berechnen $\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{i})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^i_j)$ .

Welches kann auch als Vektor über geschrieben werden

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{i})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^i)$ .

Wir werden den Gradienten der Kostenfunktionen in Bezug auf die zweite Gleichung angeben, aber wenn man diese Ergebnisse selbst beweisen möchte, wird die Verwendung der ersten Gleichung empfohlen, da es einfacher ist, damit zu arbeiten.

Anforderungen an die Kostenfunktion

Um bei der Backpropagation verwendet zu werden, muss eine Kostenfunktion zwei Eigenschaften erfüllen:

1: Die Kostenfunktion muss als Durchschnitt geschrieben werden können $C$

C = \frac{1}{n} \sum_{x} C_{x}

$C=\frac{1}{n} \sum\limits_x C_x$

über Kostenfunktionen für individuelle Trainingsbeispiele, . $C_x$ $x$

Auf diese Weise können wir den Gradienten (in Bezug auf Gewichte und Vorspannungen) für ein einzelnes Trainingsbeispiel berechnen und den Gradientenabstieg ausführen.

2: Die Kostenfunktion darf neben den Ausgangswerten nicht von Aktivierungswerten eines neuronalen Netzes abhängig sein . $C$ $a^L$

Technisch gesehen kann eine Kostenfunktion von jedem oder . Wir machen diese Einschränkung nur, damit wir sie rückgängig machen können, da die Gleichung zum Ermitteln des Gradienten der letzten Ebene die einzige ist, die von der Kostenfunktion abhängt (der Rest hängt von der nächsten Ebene ab). Wenn die Kostenfunktion von anderen Aktivierungsschichten als der ausgegebenen abhängig ist, ist die Rückübertragung ungültig, da die Idee des "Rückwärtsrinnens" nicht mehr funktioniert. $a^i_j$ $z^i_j$

Außerdem müssen Aktivierungsfunktionen für alle einen Ausgang . Daher müssen diese Kostenfunktionen nur innerhalb dieses Bereichs definiert werden (zum Beispiel ist gültig, da wir garantiert ). $0\leq a^L_j \leq 1$ $j$ $\sqrt{a^L_j}$ $a^L_j \geq 0$

machine-learning neural-networks

— Phylliida
quelle

Dies ist eine Q & A-Seite, und das Format dieses Beitrags passt nicht wirklich dazu. Sie sollten wahrscheinlich den größten Teil des Inhalts in eine Antwort einfügen und nur die Frage hinterlassen (z. B. Was ist eine Liste der in NNs verwendeten Kostenfunktionen?).

— Roger Fan

Okay, ist das besser? Ich denke, die Definitionen sind wichtig, sonst werden die Antworten für diejenigen vage, die mit der Terminologie des Autors nicht vertraut sind.

— Phylliida,

Was aber, wenn eine andere Antwort eine andere Notation oder Terminologie verwendet?

— Roger Fan

Die Idee ist, dass jeder hier die gleiche Terminologie verwendet und dass, wenn es anders ist, wir es in diese umwandeln, damit die Antworten "zueinander passen". Aber ich nehme an, ich könnte das Teil entfernen, wenn Sie es nicht für hilfreich halten.

— Phylliida,

Ich denke nur, dass das Detail, auf das sich die Frage bezieht, nicht wirklich notwendig oder relevant ist. Es scheint ein bisschen übertrieben und einschränkend, aber das bin nur ich.

— Roger Fan

Antworten:

Hier sind die, die ich bisher verstanden habe. Die meisten dieser Funktionen funktionieren am besten, wenn Werte zwischen 0 und 1 angegeben werden.

Quadratische Kosten

Dies wird auch als mittlerer quadratischer Fehler , maximale Wahrscheinlichkeit und quadratischer Summenfehler bezeichnet und ist wie folgt definiert:

C_{M S T} (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C_{MST}(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

$r$

\nabla_{a} C_{M S T} = (a^{L} - E^{r})

$\nabla_a C_{MST} = (a^L - E^r)$

Cross-Entropie-Kosten

Wird auch als negative Log-Wahrscheinlichkeit nach Bernoulli und binäre Kreuzentropie bezeichnet

C_{C E} (W, B, S^{r}, E^{r}) = - \sum_{j} [E_{j}^{r} ln a_{j}^{L} + (1 - E_{j}^{r}) ln (1 - a_{j}^{L})]

$C_{CE}(W, B, S^r, E^r) = -\sum\limits_j [E^r_j \text{ ln } a^L_j + (1 - E^r_j) \text{ ln }(1-a^L_j)]$

Der Gradient dieser Kostenfunktion in Bezug auf die Ausgabe eines neuronalen Netzwerks und einer Stichprobe ist: $r$

\nabla_{a} C_{C E} = \frac{(a^{L} - E^{r})}{(1 - a^{L}) (a^{L})}

$\nabla_a C_{CE} = \frac{(a^L - E^r)}{(1-a^L)(a^L)}$

Exponentielle Kosten

Dies erfordert die Auswahl eines Parameters , von dem Sie glauben, dass er Ihnen das gewünschte Verhalten verleiht. Normalerweise müssen Sie nur damit spielen, bis die Dinge gut funktionieren. $\tau$

C_{E X P} (W, B, S^{r}, E^{r}) = τ \exp (\frac{1}{τ} \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2})

$C_{EXP}(W, B, S^r, E^r) = \tau\text{ }\exp(\frac{1}{\tau} \sum\limits_j (a^L_j - E^r_j)^2)$

Dabei ist einfach eine Abkürzung für . $\text{exp}(x)$ $e^x$

Der Gradient dieser Kostenfunktion in Bezug auf die Ausgabe eines neuronalen Netzwerks und einer Stichprobe ist: $r$

\nabla_{a} C = \frac{2}{τ} (a^{L} - E^{r}) C_{E X P} (W, B, S^{r}, E^{r})

$\nabla_a C = \frac{2}{\tau}(a^L- E^r)C_{EXP}(W, B, S^r, E^r)$

Ich könnte umschreiben , aber das scheint überflüssig. Punkt ist der Gradient, der einen Vektor berechnet und ihn dann mit multipliziert . $C_{EXP}$ $C_{EXP}$

Hellinger Entfernung

C_{H D} (W, B, S^{r}, E^{r}) = \frac{1}{\sqrt{2}} \sum_{j} (\sqrt{a_{j}^{L}} - \sqrt{E_{j}^{r}})^{2}

$C_{HD}(W, B, S^r, E^r) = \frac{1}{\sqrt{2}}\sum\limits_j(\sqrt{a^L_j}-\sqrt{E^r_j})^2$

Mehr dazu finden Sie hier . Dies muss positive Werte haben und im Idealfall Werte zwischen und . Gleiches gilt für die folgenden Unterschiede. $0$ $1$

Der Gradient dieser Kostenfunktion in Bezug auf die Ausgabe eines neuronalen Netzwerks und einer Stichprobe ist: $r$

\nabla_{a} C = \frac{\sqrt{a^{L}} - \sqrt{E^{r}}}{\sqrt{2} \sqrt{a^{L}}}

$\nabla_a C = \frac{\sqrt{a^L}-\sqrt{E^r}}{\sqrt{2}\sqrt{a^L}}$

Kullback-Leibler-Divergenz

Auch bekannt als Informationsdivergenz , Informationsgewinn , relative Entropie , KLIC oder KL-Divergenz (siehe hier ).

Die Kullback-Leibler-Divergenz wird typischerweise als .

D_{K L} (P ‖ Q) = \sum_{i} P (i) \ln \frac{P (i)}{Q (i)}

$D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \, \ln\frac{P(i)}{Q(i)}$

wobei ein Maß für den Informationsverlust ist, wenn zur Approximation von . Wir wollen also und , weil wir messen wollen, wie viel Information verloren geht, wenn wir um zu approximieren . Das gibt uns $D_{\mathrm{KL}}(P\|Q)$ $Q$ $P$ $P=E^i$ $Q=a^L$ $a^i_j$ $E^i_j$

C_{K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}}

$C_{KL}(W, B, S^r, E^r)=\sum\limits_jE^r_j \log \frac{E^r_j}{a^L_j}$

Die anderen Divergenzen verwenden hier dieselbe Idee, und . $P=E^i$ $Q=a^L$

Der Gradient dieser Kostenfunktion in Bezug auf die Ausgabe eines neuronalen Netzwerks und einer Stichprobe ist: $r$

\nabla_{a} C = - \frac{E^{r}}{a^{L}}

$\nabla_a C = -\frac{E^r}{a^L}$

Generalisierte Kullback-Leibler-Divergenz

Von hier .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}} - \sum_{j} (E_{j}^{r}) + \sum_{j} (a_{j}^{L})

$C_{GKL}(W, B, S^r, E^r)=\sum\limits_j E^r_j \log \frac{E^r_j}{a^L_j} -\sum\limits_j(E^r_j) + \sum\limits_j(a^L_j)$

Der Gradient dieser Kostenfunktion in Bezug auf die Ausgabe eines neuronalen Netzwerks und einer Stichprobe ist: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{a^{L}}

$\nabla_a C = \frac{a^L-E^r}{a^L}$

Itakura – Saito Entfernung

Auch von hier .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} (\frac{E_{j}^{r}}{a_{j}^{L}} - \log \frac{E_{j}^{r}}{a_{j}^{L}} - 1)

$C_{GKL}(W, B, S^r, E^r)= \sum_j \left(\frac {E^r_j}{a^L_j} - \log \frac{E^r_j}{a^L_j} - 1 \right)$

Der Gradient dieser Kostenfunktion in Bezug auf die Ausgabe eines neuronalen Netzwerks und einer Stichprobe ist: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{{(a^{L})}^{2}}

$\nabla_a C = \frac{a^L-E^r}{\left(a^L\right)^2}$

Wobei . Mit anderen Worten einfach gleich jedes Elements Quadrierung . $\left(\left(a^L\right)^2\right)_j = a^L_j \cdot a^L_j$ $\left( a^L\right) ^2$ $a^L$

— Phylliida
quelle

Vielen Dank für die Freigabe, Sie können auch diese berücksichtigen: github.com/torch/nn/blob/master/doc/criterion.md

— Yannis Assael

Sie haben einen kleinen Fehler im Nenner der Kreuzentropie-Ableitung, es sollte a*(1-a)nicht seina*(1+a)

— Amro

Es wäre auch cool, die Flipper-Verlust-Funktion zu zeigen, um Fehlerquantile anstatt Durchschnittsfehler zu minimieren. Sehr verbreitet in Entscheidungsunterstützungssystemen.

— Ricardo Cruz

Wo kann ich Diagramme für diese sehen?

— Coiso

In Bezug auf die quadratische Kostenfunktion sollten Sie beachten, dass "mittlere Fehlerquadrate" "maximale Wahrscheinlichkeit" "Fehlerquadratsumme" ist. Autoren können den Namen (falsch) austauschbar verwenden, aber sie sind nicht dasselbe.

\neq

$\neq$

\neq

$\neq$

— Jon

Sie haben nicht den Ruf, Kommentare abzugeben, aber in den letzten drei Farbverläufen sind Zeichenfehler aufgetreten.

In der KL-Divergenz ist Dies Fehler mit gleichem Vorzeichen wird in der generalisierten KL-Divergenz angezeigt.

\begin{aligned} C & = \sum_{j} E_{j} \log (E_{j} / a_{j}) \\ = \sum_{j} E_{j} \log (E_{j}) - E_{j} \log (a_{j}) \\ d C & = - \sum_{j} E_{j} d \log (a_{j}) \\ = - \sum_{j} (E_{j} / a_{j}) d a_{j} \\ \nabla_{a} C & = \frac{- E}{a} \end{aligned}

$\eqalign{ C &= \sum_j E_j\log(E_j/a_j) \cr &= \sum_j E_j\log(E_j) - E_j\log(a_j) \cr\cr dC &= -\sum_j E_j\,\,d\log(a_j) \cr &= -\sum_j (E_j/a_j)\,da_j \cr\cr \nabla_a C &= \frac{-E}{a} \cr\cr }$

In der Itakura-Saito-Distanz ist

\begin{aligned} C & = \sum_{j} (E_{j} / a_{j}) - \log (E_{j} / a_{j}) - 1 \\ = \sum_{j} (E_{j} / a_{j}) - \log (E_{j}) + \log (a_{j}) - 1 \\ d C & = \sum_{j} (- E_{j} / a_{j}^{2}) d a_{j} + d \log (a_{j}) \\ = \sum_{j} (1 / a_{j}) d a_{j} - (E_{j} / a_{j}^{2}) d a_{j} \\ = \sum_{j} (a_{j} - E_{j}) / a_{j}^{2} d a_{j} \\ \nabla_{a} C & = \frac{a - E}{(a)^{2}} \end{aligned}

$\eqalign{ C &= \sum_j (E_j/a_j) - \log(E_j/a_j) - 1 \cr &= \sum_j (E_j/a_j) - \log(E_j) + \log(a_j) -1 \cr\cr dC &= \sum_j (-E_j/a^2_j)\,da_j + d\log(a_j) \cr &= \sum_j (1/a_j)\,da_j - (E_j/a^2_j)\,da_j \cr &= \sum_j (a_j-E_j)/a^2_j\,\,\,da_j \cr\cr \nabla_a C &= \frac{a-E}{(a)^2} \cr }$

— frank
quelle