Multinomial Logistic Loss vs (Kreuzentropie vs quadratischer Fehler)

Ich beobachtete, dass Caffe (ein Deep-Learning-Framework) die Softmax-Verlustschicht SoftmaxWithLoss als Ausgabeschicht für die meisten Modellbeispiele verwendete .

Soweit ich weiß, ist die Softmax-Verlustschicht die Kombination aus multinomialer logistischer Verlustschicht und Softmax-Schicht .

Von Caffe sagten sie das

Die Berechnung des Gradienten der Softmax-Verlustschicht ist numerisch stabiler

Diese Erklärung ist jedoch nicht die Antwort, die ich möchte. Die Erklärung besteht lediglich darin, die Kombination aus multinomialer logistischer Verlustschicht und Softmax-Verlustschicht anstelle von Schicht für Schicht zu vergleichen. Aber nicht mit anderen Arten von Verlustfunktionen vergleichen.

Ich würde jedoch gerne mehr über die Unterschiede / Vor- und Nachteile dieser 3 Fehlerfunktionen erfahren, nämlich Multinomial Logistic Loss , Cross Entropy (CE) und Square Error (SE) in der Perspektive des überwachten Lernens. Irgendwelche unterstützenden Artikel?

— karfai
quelle

Nur ein Hinweis: Ich denke, Sie erhalten eine schnellere Antwort, wenn Sie Ihren Fragen den Tag "caffe" hinzufügen. Wenn Sie es auch auf stackoverflow anstatt auf stackexchange veröffentlichen, wird es möglicherweise mehr Aufmerksamkeit erhalten.

— McExchange

Die Kombination macht den Gradienten einfach zu berechnen y-t. willamette.edu/~gorr/classes/cs449/classify.html

— Jingpeng Wu

Antworten:

Meiner Meinung nach ist die Verlustfunktion die Zielfunktion, mit der unsere neuronalen Netze ihre Gewichte entsprechend optimieren sollen. Daher ist es aufgabenspezifisch und auch irgendwie empirisch. Um ganz klar zu sein, Multinomial Logistic Loss und Cross Entropy Loss sind gleich (siehe http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression ). Die Kostenfunktion des multinomialen logistischen Verlusts ist wie folgt: $J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right].$

$\frac 1 {2N} \sum_{i=1}^N \| x^1_i - x^2_i \|_2^2.$

Daher wird es normalerweise zur Minimierung unter Verwendung einiger Konstruktionsfehler verwendet.

EDIT: @MartinThoma Die obige Formel für den Verlust multinomialer Logistik gilt nur für den Binärfall. Für den allgemeinen Fall sollte sie , wobei K die Anzahl der Kategorien ist. $J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— Beahacker
quelle

In Caffe, MultinomialLogisticLoss ist , also wer hier falsch ist?

\frac{- 1}{N} \sum_{n = 1}^{N} \log (p_{n, l_{n}})

$\frac{-1}{N}\sum_{n=1}^{N}\log(p_{n,l_n})$

— Moi

Nicht falsch, sind binäre Variablen, am Ende kann es in Ihre Formulierung reduziert werden.

y^{i}

$y^i$

— Buhacker

Ich dachte, der logistische Verlust bei Multinomails wäre ohne den zweiten Summanden, also

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)})]

$J(\theta) = - \frac{1}{m} [\sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)})]$

— Martin Thoma

@MartinThoma Meine Formel ist nur für den Binärfall, für den allgemeinen Fall sollte sie

J (θ) = - [\sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log P (y^{(i)} = k | x^{(i)}; θ)]

$J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— beahacker

@beahacker Könnten Sie mir bitte sagen, warum der zweite Summand nicht im multinominalen Fall enthalten ist, wie von Martin Thoma hervorgehoben? Ich versuche zu verstehen, warum es so gemacht wird. Zumindest könnten Sie mich auf eine Ressource verweisen, die Sie untersuchen sollten.

— Nandeesh

Ich würde gerne mehr über die Unterschiede / Vor- und Nachteile dieser 3 Fehlerfunktionen erfahren, nämlich Multinomial Logistic Loss, Cross Entropy (CE) und Square Error (SE) in der Perspektive des überwachten Lernens.

Der multinomiale logistische Verlust ist tatsächlich der gleiche wie die Kreuzentropie. Schauen Sie sich diese Funktion an (die Kostenfunktion in Softmax ): wobei m die Probennummer ist, K die Klassennummer ist.

J (θ) = - \sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log p (y^{(i)} = k ∣ x^{(i)}; θ)

$J( \theta ) = - \sum^m_{i=1} \sum^K_{k=1} 1 \{ y^{(i)} = k \} \log p(y^{(i)} = k \mid x^{(i)} ; \theta)$

Die Indikatorfunktion ( ) bestimmt, ob der -Balg in der Kreuzentropiedefinition , die in den Trainingsdaten als ein heiß bezeichnet ist, 0 oder 1 ist, und ist die bedingte Wahrscheinlichkeit des Softmax (q (x) wie unten gezeigt). $1 \{ y^{(i)} = k \}$ $p(x)$ $p(y^{(i)} = k \mid x^{(i)} ; \theta)$

- \sum_{x} p (x) \log q (x)

$-\sum_x p(x) \log q(x)$

Und MSE ist hauptsächlich für die Situation gedacht, in der die Verbindungsfunktion die Einheitsfunktion ist (die Antwortverteilung folgt einer Normalverteilung), die lineare Standardregression, während die Kreuzentropie normalerweise für die Situation gilt, in der die Verbindungsfunktion die Logit-Funktion ist. Hier ist ein großartiger Vergleich, auf den Sie sich beziehen können.

Irgendwelche unterstützenden Artikel?

Mit Ausnahme der Links empfehlen wir Ihnen dieses Beispiel: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regression.md

— Lerner Zhang
quelle