Als «gradient-descent» getaggte Fragen

Der Gradientenabstieg ist ein iterativer Optimierungsalgorithmus erster Ordnung. Um ein lokales Minimum einer Funktion unter Verwendung eines Gradientenabfalls zu finden, werden Schritte ausgeführt, die proportional zum Negativ des Gradienten (oder des ungefähren Gradienten) der Funktion am aktuellen Punkt sind. Für den stochastischen Gradientenabstieg gibt es auch das [sgd] -Tag.




1
Wie kann der stochastische Gradientenabstieg im Vergleich zum normalen Gradientenabstieg Zeit sparen?
Standardgradientenabstieg berechnet den Gradienten für den gesamten Trainingsdatensatz. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Für eine vordefinierte Anzahl von Epochen berechnen wir zunächst den Gradientenvektor Weight_Grad der Verlustfunktion für den gesamten Datensatz mit unseren Parametervektorparametern. Im Gegensatz dazu führt der …

1
Erläuterung der Implementierung von Perceptron-Regel vs. Gradient Descent vs. Stochastic Gradient Descent
Ich habe ein wenig mit verschiedenen Perceptron-Implementierungen experimentiert und möchte sicherstellen, dass ich die "Iterationen" richtig verstehe. Rosenblatts ursprüngliche Perzeptronregel Soweit ich weiß, werden bei Rosenblatts klassischem Perzeptron-Algorithmus die Gewichte nach jedem Trainingsbeispiel gleichzeitig über aktualisiert Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i wo hier die ist. Und sowohl Ziel …

1
Summe oder Durchschnitt der Gradienten in (Mini) Batch-Gradienten anständig?
Als ich Mini Batch Gradient Decent implementiert habe, habe ich nur die Gradienten aller Beispiele im Trainingsbatch gemittelt. Allerdings ist mir aufgefallen, dass jetzt die optimale Lernrate deutlich höher ist als bei anständigen Online-Gefällen. Meiner Intuition nach ist dies so, weil der gemittelte Gradient weniger verrauscht ist und somit schneller …

1
Wie vermeiden CNNs das Problem des verschwindenden Gradienten?
Ich habe viel über gewundene neuronale Netze gelesen und mich gefragt, wie sie das Problem des verschwindenden Gradienten vermeiden. Ich weiß, dass Deep-Believe-Netzwerke Single-Level-Auto-Encoder oder andere vorgefertigte flache Netzwerke stapeln und so dieses Problem vermeiden können, aber ich weiß nicht, wie es in CNNs vermieden wird. Laut Wikipedia : "Trotz …

1
Warum verwenden wir nicht konstante Lernraten für anständige Gradienten für andere Dinge als neuronale Netze?
Deep-Learning-Literatur steckt voller cleverer Tricks bei der Verwendung nicht konstanter Lernraten beim Gradientenabstieg. Dinge wie Exponential Decay, RMSprop, Adagrad usw. sind einfach zu implementieren und in jedem Deep-Learning-Paket verfügbar, scheinen jedoch außerhalb neuronaler Netze nicht zu existieren. Gibt es einen Grund dafür? Wenn es den Menschen einfach egal ist, gibt …

4
Wie kann es in einem Sattelpunkt gefangen werden?
Ich bin derzeit ein bisschen verwirrt darüber, wie der Mini-Batch-Gefälle-Abstieg in einem Sattelpunkt gefangen werden kann. Die Lösung könnte zu trivial sein, als dass ich sie nicht verstehe. Sie erhalten in jeder Epoche eine neue Stichprobe und es wird ein neuer Fehler basierend auf einer neuen Charge berechnet, sodass die …


2
Gradientenabfall vs lm () -Funktion in R?
Ich gehe die Videos in Andrew Ngs kostenlosem Online-Kurs für maschinelles Lernen in Stanford durch. Er beschreibt Gradient Descent als einen Algorithmus zum Lösen linearer Regression und zum Ausführen von Schreibfunktionen in Octave. Vermutlich könnte ich diese Funktionen in R umschreiben, aber meine Frage ist, gibt mir die Funktion lm …

1
Warum wird in der Praxis der Abstiegsalgorithmus „Saddle-Free Newton“ nicht verwendet?
Kürzlich habe ich einen Artikel von Yann Dauphin et al. Identifizierung und Angriff auf das Sattelpunktproblem bei der hochdimensionalen nichtkonvexen Optimierung , bei der ein interessanter Abstiegsalgorithmus namens " Sattelfreies Newton" eingeführt wird , der genau auf die Optimierung des neuronalen Netzwerks zugeschnitten zu sein scheint und nicht daran zu …

1
Auswahl einer geeigneten Minibatch-Größe für den stochastischen Gradientenabstieg (SGD)
Gibt es Literatur, die die Wahl der Minibatch-Größe bei der Durchführung eines stochastischen Gradientenabfalls untersucht? Nach meiner Erfahrung scheint es sich um eine empirische Entscheidung zu handeln, die normalerweise durch Kreuzvalidierung oder unter Verwendung unterschiedlicher Faustregeln getroffen wird. Ist es eine gute Idee, die Minibatch-Größe langsam zu erhöhen, wenn der …

5
Warum ist der Gradientenabstieg bei großen Datenmengen ineffizient?
Nehmen wir an, unser Datensatz enthält 1 Million Beispiele, dh , und wir möchten den Gradientenabstieg verwenden, um eine logistische oder lineare Regression für diesen Datensatz durchzuführen.x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} Was macht die Gradientenabstiegsmethode ineffizient? Es sei daran erinnert, dass der Gradientenabstiegsschritt zum Zeitpunkt gegeben ist durch:ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.