Als «sgd» getaggte Fragen

Der stochastische Gradientenabstieg (SGD) ist eine Variante des Gradientenabstiegs, bei der nur eine kleine Teilmenge ("Mini-Batch") von Trainingsbeispielen verwendet wird, um den Gradienten bei jeder Iteration zu berechnen.

3
Batch-Gefälle versus stochastisches Gefälle
Angenommen, wir haben eine Trainingsmenge ( x( i ), y( i ))(x(i),y(i))(x_{(i)}, y_{(i)}) für i = 1 , ... , mi=1,…,mi = 1, \dots, m . Angenommen, wir führen eine Art von überwachtem Lernalgorithmus für den Trainingssatz aus. Hypothesen werden dargestellt als hθ( x( i )) = θ0+ θ1X( i …

2
Wer hat die stochastische Gefällestufe erfunden?
Ich versuche die Geschichte des Gradientenabstiegs und des stochastischen Gradientenabstiegs zu verstehen . Gradientenabfallsaktualisierung wurde erfunden Cauchy in 1847. Méthode Générale pour la résolution des Systèmes d'GLEICHUNGEN simultanées . S. 536–538 Weitere Informationen finden Sie hier . Seitdem haben sich Gradientenabstiegsmethoden weiterentwickelt und ich bin mit ihrer Geschichte nicht vertraut. …

6
Zeigt der Gradient in Stochastic Gradient Descent (SGD) bei konvexen Problemen immer auf den globalen Extremwert?
Bei einer konvexen Kostenfunktion, bei der SGD für die Optimierung verwendet wird, haben wir zu einem bestimmten Zeitpunkt während des Optimierungsprozesses einen Gradienten (Vektor). Meine Frage ist, angesichts des Punktes auf der Konvexen, zeigt der Gradient nur in die Richtung, in die die Funktion am schnellsten zunimmt / abnimmt, oder …

3
Wie wirkt sich die Chargengröße auf die Konvergenz von SGD aus und warum?
Aus vielen Diskussionen habe ich ähnliche Schlussfolgerungen gezogen, dass die Konvergenz von SGD mit zunehmender Minibatch-Größe tatsächlich schwieriger / schlechter wird, zum Beispiel in diesem Artikel und in dieser Antwort . Ich habe auch von Leuten gehört, die im frühen Stadium Tricks wie kleine Lernraten oder Losgrößen einsetzten, um diese …

1
Wie kann der stochastische Gradientenabstieg im Vergleich zum normalen Gradientenabstieg Zeit sparen?
Standardgradientenabstieg berechnet den Gradienten für den gesamten Trainingsdatensatz. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Für eine vordefinierte Anzahl von Epochen berechnen wir zunächst den Gradientenvektor Weight_Grad der Verlustfunktion für den gesamten Datensatz mit unseren Parametervektorparametern. Im Gegensatz dazu führt der …

4
Wie kann es in einem Sattelpunkt gefangen werden?
Ich bin derzeit ein bisschen verwirrt darüber, wie der Mini-Batch-Gefälle-Abstieg in einem Sattelpunkt gefangen werden kann. Die Lösung könnte zu trivial sein, als dass ich sie nicht verstehe. Sie erhalten in jeder Epoche eine neue Stichprobe und es wird ein neuer Fehler basierend auf einer neuen Charge berechnet, sodass die …

1
RMSProp und Adam gegen SGD
Ich führe Experimente mit dem EMNIST-Validierungssatz unter Verwendung von Netzwerken mit RMSProp, Adam und SGD durch. Ich erreiche eine Genauigkeit von 87% mit SGD (Lernrate von 0,1) und Dropout (0,1 Dropout Prob) sowie L2-Regularisierung (1e-05-Strafe). Wenn ich die gleiche exakte Konfiguration mit RMSProp und Adam sowie die anfängliche Lernrate von …

1
Was ist der Unterschied zwischen VAE und stochastischer Backpropagation für tiefe generative Modelle?
Was ist der Unterschied zwischen der automatischen Codierung von Variations-Bayes und der stochastischen Backpropagation für tiefe generative Modelle ? Führt die Schlussfolgerung bei beiden Methoden zu denselben Ergebnissen? Mir sind keine expliziten Vergleiche zwischen den beiden Methoden bekannt, obwohl sich beide Autorengruppen gegenseitig zitieren.


3
Gradientenabstieg bei nicht konvexen Funktionen
Welche Situationen kennen wir, in denen gezeigt werden kann, dass der Gradientenabstieg für nicht konvexe Funktionen konvergiert (entweder zu einem kritischen Punkt oder zu einem lokalen / globalen Minimum)? Für SGD zu nicht konvexen Funktionen wurde hier eine Art von Beweis überprüft: http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf

2
Umgang mit kleinen Losgrößen im SGD-Training
Ich versuche, ein großes Modell (tiefes Netz mit Kaffee) mit stochastischem Gradientenabstieg (SGD) zu trainieren. Das Problem ist, dass ich durch meine GPU-Speicherkapazität eingeschränkt bin und daher keine großen Mini-Batches für jede stochastische Gradientenschätzung verarbeiten kann. Wie kann ich diese Instabilität in meinem Training überwinden? Ein Gedanke, den ich hatte, …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.