Als «backpropagation» getaggte Fragen

Backpropagation, eine Abkürzung für "Backward Propagation of Error", ist eine übliche Methode zum Trainieren künstlicher neuronaler Netze, die in Verbindung mit einer Optimierungsmethode wie dem Gradientenabstieg verwendet wird.

6
Ist es möglich, ein neuronales Netzwerk ohne Backpropagation zu trainieren?
Viele Bücher und Tutorials zu neuronalen Netzen verbringen viel Zeit mit dem Backpropagation-Algorithmus, der im Wesentlichen ein Werkzeug zur Berechnung des Gradienten darstellt. Nehmen wir an, wir bauen ein Modell mit ~ 10K Parametern / Gewichten. Ist es möglich, die Optimierung mit einigen gradientenfreien Optimierungsalgorithmen durchzuführen? Ich denke, die Berechnung …


1
Inwiefern unterscheidet sich softmax_cross_entropy_with_logits von softmax_cross_entropy_with_logits_v2?
Im Einzelnen wundere ich mich wohl über diese Aussage: Zukünftige Hauptversionen von TensorFlow ermöglichen es, dass Farbverläufe standardmäßig in die Beschriftungen fließen, die auf Backprop eingegeben werden. Welches wird angezeigt, wenn ich benutze tf.nn.softmax_cross_entropy_with_logits. In der gleichen Nachricht fordert es mich auf, einen Blick darauf zu werfen tf.nn.softmax_cross_entropy_with_logits_v2. Ich habe …

6
Rückausbreitung mit Softmax / Cross Entropy
Ich versuche zu verstehen, wie Backpropagation für eine Softmax / Cross-Entropy-Ausgabeebene funktioniert. Die Kreuzentropiefehlerfunktion ist E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j mit und als Ziel bzw. Ausgabe bei Neuron . Die Summe befindet sich über jedem Neuron in der Ausgabeschicht. selbst ist das Ergebnis der Softmax-Funktion:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Wieder ist die Summe …




1
Warum sind nicht nullzentrierte Aktivierungsfunktionen ein Problem bei der Rückübertragung?
Ich habe hier folgendes gelesen : Sigmoid-Ausgänge sind nicht nullzentriert . Dies ist unerwünscht, da Neuronen in späteren Verarbeitungsebenen in einem neuronalen Netzwerk (dazu bald mehr) Daten empfangen würden, die nicht nullzentriert sind. Dies hat Auswirkungen auf die Dynamik beim Gradientenabstieg, denn wenn die in ein Neuron eingehenden Daten immer …

1
Gradient Backpropagation über ResNet-Skip-Verbindungen
Ich bin neugierig, wie Gradienten mithilfe von ResNet-Modulen / Überspringverbindungen über ein neuronales Netzwerk zurückgewonnen werden. Ich habe ein paar Fragen zu ResNet gesehen (z. B. Neuronales Netzwerk mit Sprungschichtverbindungen ), aber diese Frage bezieht sich speziell auf die Rückübertragung von Verläufen während des Trainings. Die grundlegende Architektur ist hier: …

3
Warum Gradientenabstieg bei neuronalen Netzen verwenden?
Wenn ein neuronales Netzwerk unter Verwendung des Back-Propagation-Algorithmus trainiert wird, wird das Gradientenabstiegsverfahren verwendet, um die Gewichtsaktualisierungen zu bestimmen. Meine Frage ist: Anstatt die Gradientenabstiegsmethode zu verwenden, um den Minimalpunkt in Bezug auf ein bestimmtes Gewicht langsam zu lokalisieren, warum setzen wir nicht einfach die Ableitung und finde den Wert …

2
Warum sollten Sie in neuronalen Netzen Gradientenmethoden anstelle anderer Metaheuristiken verwenden?
Warum werden beim Training tiefer und flacher neuronaler Netze im Gegensatz zu anderen Metaheuristiken häufig Gradientenmethoden (z. B. Gradientenabstieg, Nesterov, Newton-Raphson) verwendet? Mit Metaheuristik meine ich Methoden wie simuliertes Tempern, Optimierung von Ameisenkolonien usw., die entwickelt wurden, um zu vermeiden, dass sie in einem lokalen Minimum hängen bleiben.


2
Backpropagation-Algorithmus
Ich habe eine leichte Verwirrung über den Backpropagation- Algorithmus, der in Multilayer Perceptron (MLP) verwendet wird. Der Fehler wird durch die Kostenfunktion korrigiert. Bei der Backpropagation versuchen wir, das Gewicht der ausgeblendeten Ebenen anzupassen. Den Ausgabefehler kann ich nachvollziehen, also e = d - y[ohne die Indizes]. Die Fragen sind: …

1
Summe oder Durchschnitt der Gradienten in (Mini) Batch-Gradienten anständig?
Als ich Mini Batch Gradient Decent implementiert habe, habe ich nur die Gradienten aller Beispiele im Trainingsbatch gemittelt. Allerdings ist mir aufgefallen, dass jetzt die optimale Lernrate deutlich höher ist als bei anständigen Online-Gefällen. Meiner Intuition nach ist dies so, weil der gemittelte Gradient weniger verrauscht ist und somit schneller …

3
Warum sich in einem RNN zurück durch die Zeit ausbreiten?
In einem wiederkehrenden neuronalen Netzwerk würden Sie normalerweise die Weiterleitung über mehrere Zeitschritte durchführen, das Netzwerk "ausrollen" und dann die Weiterleitung über die Folge von Eingaben zurückführen. Warum sollten Sie nicht einfach die Gewichte nach jedem einzelnen Schritt in der Sequenz aktualisieren? (Das entspricht einer Trunkierungslänge von 1, es gibt …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.