Ist es üblich, den mittleren Verlust über die Chargen anstelle der Summe zu minimieren?

14

Tensorflow enthält ein Beispiel-Tutorial zur Klassifizierung von CIFAR-10 . Im Tutorial wird der durchschnittliche Kreuzentropieverlust über die Charge minimiert.

def loss(logits, labels):
  """Add L2Loss to all the trainable variables.
  Add summary for for "Loss" and "Loss/avg".
  Args:
    logits: Logits from inference().
    labels: Labels from distorted_inputs or inputs(). 1-D tensor
            of shape [batch_size]
  Returns:
    Loss tensor of type float.
  """
  # Calculate the average cross entropy loss across the batch.
  labels = tf.cast(labels, tf.int64)
  cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(
      logits, labels, name='cross_entropy_per_example')
  cross_entropy_mean = tf.reduce_mean(cross_entropy, name='cross_entropy')
  tf.add_to_collection('losses', cross_entropy_mean)

  # The total loss is defined as the cross entropy loss plus all of the weight
  # decay terms (L2 loss).
  return tf.add_n(tf.get_collection('losses'), name='total_loss')

Siehe cifar10.py , Zeile 267.

Warum wird stattdessen nicht die Summe über die Charge minimiert? Macht es einen Unterschied? Ich verstehe nicht, wie sich dies auf die Backprop-Berechnung auswirken würde.

neural-networks loss-functions tensorflow

— Zusammenstoß
quelle

Keine genaue Summe / Durchschnitt, aber Verlustentscheidung ist eine Wahl des Anwendungsdesigns. Wenn Sie beispielsweise gut im Durchschnitt sind, optimieren Sie den Durchschnitt. Wenn Ihre Anwendung für ein Worst-Case-Szenario (z. B. einen Autounfall) empfindlich ist, sollten Sie den Maximalwert optimieren.

— Alex Kreimer

Siehe auch: stats.stackexchange.com/questions/358786/…

— Sycorax sagt Reinstate Monica

15

Wie von pkubik erwähnt, gibt es normalerweise einen Regularisierungsterm für die Parameter, der nicht von der Eingabe abhängt, beispielsweise im Tensorflow

# Loss function using L2 Regularization
regularizer = tf.nn.l2_loss(weights)
loss = tf.reduce_mean(loss + beta * regularizer)

In diesem Fall hilft die Mittelung über die Mini-Charge dabei, ein festes Verhältnis zwischen cross_entropyVerlust und regularizerVerlust beizubehalten, während die Chargengröße geändert wird.

Darüber hinaus ist die Lernrate auch abhängig von der Größe des Verlusts (Gradienten). Um das Ergebnis unterschiedlicher Chargengrößen zu normalisieren, scheint es eine bessere Option zu sein, den Durchschnitt zu verwenden.

Aktualisieren

Dieses Papier von Facebook (Accurate, Large Minibatch SGD: Training ImageNet in 1 Stunde) zeigt, dass die Skalierung der Lernrate entsprechend der Stapelgröße recht gut funktioniert:

Lineare Skalierungsregel: Wenn die Minibatch-Größe mit k multipliziert wird, multiplizieren Sie die Lernrate mit k.

Dies ist im Wesentlichen dasselbe, um den Gradienten mit k zu multiplizieren und die Lernrate unverändert zu lassen. Ich denke, es ist nicht notwendig, den Durchschnitt zu nehmen.

— dontloo
quelle

8

Ich werde mich auf den Teil konzentrieren:

Ich verstehe nicht, wie sich dies auf die Backprop-Berechnung auswirken würde.

Zunächst haben Sie wahrscheinlich bereits bemerkt, dass der einzige Unterschied zwischen den resultierenden Verlustwerten darin besteht, dass der durchschnittliche Verlust in Bezug auf die Summe um den Faktor verkleinert wird $\frac{1}{B}$ $L_{SUM} = B \cdot L_{AVG}$ , wo $B$ ist die Chargengröße. Wir können leicht beweisen, dass dieselbe Beziehung für eine Ableitung einer Variablen wrt gilt. die Verlustfunktionen ( $\frac{d L_{SUM}}{{dx}} = B \frac{d L_{AVG}}{{dx}}$ ) anhand der Definition des Derivats:

\frac{d L.}{d x} = lim_{Δ \to 0} \frac{L. (x + Δ) - - L. (x)}{Δ}

$\frac{dL}{{dx}} = \mathop {\lim }\limits_{\Delta \to 0} \frac{{L\left( {x + \Delta } \right) - L\left( x \right)}}{\Delta }$ Nun möchten wir den Wert der Funktion multiplizieren und sehen, wie sie sich auf die Ableitung auswirkt:

\frac{d (c \cdot L.)}{d x} = lim_{Δ \to 0} \frac{c \cdot L. (x + Δ) - - c \cdot L. (x)}{Δ}

$\frac{d (c \cdot L)}{{dx}} = \mathop {\lim }\limits_{\Delta \to 0} \frac{{c \cdot L\left( {x + \Delta } \right) - c \cdot L\left( x \right)}}{\Delta }$ Wenn wir die Konstante herausrechnen und vor die Grenze verschieben, sollten wir sehen, dass wir die ursprüngliche Ableitungsdefinition multipliziert mit einer Konstanten finden, was genau das ist, was wir beweisen wollten:

\frac{d (c \cdot L.)}{d x} = c \cdot lim_{Δ \to 0} \frac{L. (x + Δ) - - L. (x)}{Δ} = c \cdot \frac{d L.}{d x}

$\frac{d (c \cdot L)}{{dx}} = c \cdot \mathop {\lim }\limits_{\Delta \to 0} \frac{{L\left( {x + \Delta } \right) - L\left( x \right)}}{\Delta } = c \cdot \frac{d L}{{dx}}$

In SGD würden wir die Gewichte anhand ihres Gradienten multipliziert mit der Lernrate aktualisieren $\lambda$ und wir können deutlich sehen, dass wir diesen Parameter so wählen können, dass die endgültigen Gewichtsaktualisierungen gleich sind. Die erste Aktualisierungsregel:

W. : = W. + λ_{1} \frac{d {L.}_{S. U. M.}}{d W.}

$W := W + \lambda_1 \frac{dL_{SUM}}{dW}$ und die zweite Update-Regel (stellen Sie sich das vor

λ_{1} = \frac{λ_{2}}{B}

$\lambda_1 = \frac{\lambda_2}{B}$ ):

W. : = W. + λ_{1} \frac{d {L.}_{EIN V. G}}{d W.} = W. + \frac{λ_{2}}{B.} \frac{d {L.}_{S. U. M.}}{d W.}

$W := W + \lambda_1 \frac{dL_{AVG}}{dW} = W + \frac{\lambda_2}{B} \frac{dL_{SUM}}{dW}$

Der ausgezeichnete Befund von dontloo könnte darauf hindeuten, dass die Verwendung der Summe ein wenig angemessener ist. Um den Durchschnitt zu rechtfertigen, der populärer zu sein scheint, möchte ich hinzufügen, dass die Verwendung der Summe wahrscheinlich einige Probleme bei der Gewichtsregulierung verursachen könnte. Das Einstellen des Skalierungsfaktors für die Regularisierer für verschiedene Chargengrößen kann genauso ärgerlich sein wie das Einstellen der Lernrate.

— pkubik
quelle