Backpropagation, eine Abkürzung für "Backward Propagation of Error", ist eine übliche Methode zum Trainieren künstlicher neuronaler Netze, die in Verbindung mit einer Optimierungsmethode wie dem Gradientenabstieg verwendet wird.
Viele Bücher und Tutorials zu neuronalen Netzen verbringen viel Zeit mit dem Backpropagation-Algorithmus, der im Wesentlichen ein Werkzeug zur Berechnung des Gradienten darstellt. Nehmen wir an, wir bauen ein Modell mit ~ 10K Parametern / Gewichten. Ist es möglich, die Optimierung mit einigen gradientenfreien Optimierungsalgorithmen durchzuführen? Ich denke, die Berechnung …
Ich verstehe, dass der stochastische Gradientenabstieg verwendet werden kann, um ein neuronales Netzwerk mithilfe von Backpropagation zu optimieren, indem jede Iteration mit einer anderen Stichprobe des Trainingsdatensatzes aktualisiert wird. Wie groß soll die Losgröße sein?
Im Einzelnen wundere ich mich wohl über diese Aussage: Zukünftige Hauptversionen von TensorFlow ermöglichen es, dass Farbverläufe standardmäßig in die Beschriftungen fließen, die auf Backprop eingegeben werden. Welches wird angezeigt, wenn ich benutze tf.nn.softmax_cross_entropy_with_logits. In der gleichen Nachricht fordert es mich auf, einen Blick darauf zu werfen tf.nn.softmax_cross_entropy_with_logits_v2. Ich habe …
Ich versuche zu verstehen, wie Backpropagation für eine Softmax / Cross-Entropy-Ausgabeebene funktioniert. Die Kreuzentropiefehlerfunktion ist E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlogojE(t,o)=-\sum_j t_j \log o_j mit und als Ziel bzw. Ausgabe bei Neuron . Die Summe befindet sich über jedem Neuron in der Ausgabeschicht. selbst ist das Ergebnis der Softmax-Funktion:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Wieder ist die Summe …
Ich habe ein paar Artikel gelesen, in denen die Vor- und Nachteile der einzelnen Methoden erörtert wurden. Einige argumentieren, dass GA keine Verbesserung bei der Suche nach der optimalen Lösung bringt, während andere zeigen, dass sie effektiver ist. Es scheint, dass GA in der Literatur im Allgemeinen bevorzugt wird (obwohl …
In Andrew Ngs Kurs über Neuronale Netze und tiefes Lernen über Coursera sagt er, dass die Verwendung von fast immer der Verwendung von vorzuziehen ist .tanhtanhtanhsigmoidsigmoidsigmoid Der Grund, den er angibt, ist, dass die Ausgaben mit center um 0 statt mit 's 0,5 erfolgen, und dies "erleichtert das Lernen für …
Ich habe hier folgendes gelesen : Sigmoid-Ausgänge sind nicht nullzentriert . Dies ist unerwünscht, da Neuronen in späteren Verarbeitungsebenen in einem neuronalen Netzwerk (dazu bald mehr) Daten empfangen würden, die nicht nullzentriert sind. Dies hat Auswirkungen auf die Dynamik beim Gradientenabstieg, denn wenn die in ein Neuron eingehenden Daten immer …
Ich bin neugierig, wie Gradienten mithilfe von ResNet-Modulen / Überspringverbindungen über ein neuronales Netzwerk zurückgewonnen werden. Ich habe ein paar Fragen zu ResNet gesehen (z. B. Neuronales Netzwerk mit Sprungschichtverbindungen ), aber diese Frage bezieht sich speziell auf die Rückübertragung von Verläufen während des Trainings. Die grundlegende Architektur ist hier: …
Wenn ein neuronales Netzwerk unter Verwendung des Back-Propagation-Algorithmus trainiert wird, wird das Gradientenabstiegsverfahren verwendet, um die Gewichtsaktualisierungen zu bestimmen. Meine Frage ist: Anstatt die Gradientenabstiegsmethode zu verwenden, um den Minimalpunkt in Bezug auf ein bestimmtes Gewicht langsam zu lokalisieren, warum setzen wir nicht einfach die Ableitung und finde den Wert …
Warum werden beim Training tiefer und flacher neuronaler Netze im Gegensatz zu anderen Metaheuristiken häufig Gradientenmethoden (z. B. Gradientenabstieg, Nesterov, Newton-Raphson) verwendet? Mit Metaheuristik meine ich Methoden wie simuliertes Tempern, Optimierung von Ameisenkolonien usw., die entwickelt wurden, um zu vermeiden, dass sie in einem lokalen Minimum hängen bleiben.
Warum funktioniert die Backpropagation nicht, wenn Sie alle Gewichte mit demselben Wert initialisieren (z. B. 0,5), aber wenn Sie Zufallszahlen angeben, funktioniert sie einwandfrei? Sollte der Algorithmus den Fehler nicht berechnen und von dort aus arbeiten, obwohl die Gewichte anfangs gleich sind?
Ich habe eine leichte Verwirrung über den Backpropagation- Algorithmus, der in Multilayer Perceptron (MLP) verwendet wird. Der Fehler wird durch die Kostenfunktion korrigiert. Bei der Backpropagation versuchen wir, das Gewicht der ausgeblendeten Ebenen anzupassen. Den Ausgabefehler kann ich nachvollziehen, also e = d - y[ohne die Indizes]. Die Fragen sind: …
Als ich Mini Batch Gradient Decent implementiert habe, habe ich nur die Gradienten aller Beispiele im Trainingsbatch gemittelt. Allerdings ist mir aufgefallen, dass jetzt die optimale Lernrate deutlich höher ist als bei anständigen Online-Gefällen. Meiner Intuition nach ist dies so, weil der gemittelte Gradient weniger verrauscht ist und somit schneller …
In einem wiederkehrenden neuronalen Netzwerk würden Sie normalerweise die Weiterleitung über mehrere Zeitschritte durchführen, das Netzwerk "ausrollen" und dann die Weiterleitung über die Folge von Eingaben zurückführen. Warum sollten Sie nicht einfach die Gewichte nach jedem einzelnen Schritt in der Sequenz aktualisieren? (Das entspricht einer Trunkierungslänge von 1, es gibt …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.