Als «gradient-descent» getaggte Fragen

Der Gradientenabstieg ist ein iterativer Optimierungsalgorithmus erster Ordnung. Um ein lokales Minimum einer Funktion unter Verwendung eines Gradientenabfalls zu finden, werden Schritte ausgeführt, die proportional zum Negativ des Gradienten (oder des ungefähren Gradienten) der Funktion am aktuellen Punkt sind. Für den stochastischen Gradientenabstieg gibt es auch das [sgd] -Tag.

8
Warum ist Newtons Methode beim maschinellen Lernen nicht weit verbreitet?
Das nervt mich schon seit einiger Zeit und ich konnte online keine zufriedenstellenden Antworten finden. Nach einer Reihe von Vorlesungen zur konvexen Optimierung scheint die Newton-Methode ein weitaus überlegener Algorithmus zu sein als die Gradientenabsenkung, um global optimale Lösungen zu finden, da die Newton-Methode eine Garantie für ihre Lösung, ihre …

3
Batch-Gefälle versus stochastisches Gefälle
Angenommen, wir haben eine Trainingsmenge ( x( i ), y( i ))(x(i),y(i))(x_{(i)}, y_{(i)}) für i = 1 , ... , mi=1,…,mi = 1, \dots, m . Angenommen, wir führen eine Art von überwachtem Lernalgorithmus für den Trainingssatz aus. Hypothesen werden dargestellt als hθ( x( i )) = θ0+ θ1X( i …


2
Auflösen nach Regressionsparametern in geschlossener Form gegen Gradientenabstieg
In Andrew Ngs Kurs über maschinelles Lernen führt er in die lineare und logistische Regression ein und zeigt, wie die Modellparameter mithilfe des Gradientenabfalls und der Newton-Methode angepasst werden. Ich weiß, dass Gradientenabstieg in einigen Anwendungen des maschinellen Lernens (z. B. Backpropogation) nützlich sein kann, aber im allgemeineren Fall gibt …

3
Warum interessieren sich Forscher für neuronale Netze für Epochen?
Eine Epoche in stochastischer Gradientenabnahme ist definiert als ein einzelner Durchgang durch die Daten. Für jedes SGD-Minibatch werden kkk Proben gezogen, der Gradient berechnet und die Parameter aktualisiert. In der Epocheneinstellung werden die Muster ersatzlos gezogen. Dies erscheint jedoch unnötig. Warum nicht jedes SGD-Minibatch so zeichnen, wie kkk zufällig aus …

7
Optimierung, wenn die Kostenfunktion nur langsam evaluiert werden kann
Gradientenabstieg und viele andere Methoden sind nützlich, um lokale Minima in Kostenfunktionen zu finden. Sie können effizient sein, wenn die Kostenfunktion an jedem Punkt schnell ausgewertet werden kann, sei es numerisch oder analytisch. Ich habe eine für mich ungewöhnliche Situation. Jede Bewertung meiner Kostenfunktion ist teuer. Ich versuche, eine Reihe …






1
Neuronale Netze: Gewichtsänderungsimpuls und Gewichtsabfall
Das Momentum wird verwendet, um die Schwankungen der Gewichtsänderungen während aufeinanderfolgender Iterationen zu verringern:αα\alpha wobeiE(w)ist die Fehlerfunktionw- der Vektor der Gewichte,η- Lernrate.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Gewichtsabnahme bestraft die Gewichtsveränderungen:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Die Frage ist, ob es sinnvoll …

4
Wie löst die geradlinige Aktivierungsfunktion das Problem des verschwindenden Gradienten in neuronalen Netzen?
Ich fand eine gleichgerichtete Lineareinheit (ReLU), die an mehreren Stellen als Lösung für das Problem des verschwindenden Gradienten für neuronale Netze gelobt wurde . Das heißt, man verwendet max (0, x) als Aktivierungsfunktion. Wenn die Aktivierung positiv ist, ist dies offensichtlich besser als beispielsweise die Sigma-Aktivierungsfunktion, da ihre Herleitung immer …

2
Wer hat die stochastische Gefällestufe erfunden?
Ich versuche die Geschichte des Gradientenabstiegs und des stochastischen Gradientenabstiegs zu verstehen . Gradientenabfallsaktualisierung wurde erfunden Cauchy in 1847. Méthode Générale pour la résolution des Systèmes d'GLEICHUNGEN simultanées . S. 536–538 Weitere Informationen finden Sie hier . Seitdem haben sich Gradientenabstiegsmethoden weiterentwickelt und ich bin mit ihrer Geschichte nicht vertraut. …

2
Benötigen wir einen Gradientenabstieg, um die Koeffizienten eines linearen Regressionsmodells zu finden?
Ich habe versucht, maschinelles Lernen mit dem Coursera-Material zu erlernen . In dieser Vorlesung verwendet Andrew Ng den Algorithmus der Gradientenabnahme, um die Koeffizienten des linearen Regressionsmodells zu ermitteln, mit denen die Fehlerfunktion (Kostenfunktion) minimiert wird. Benötigen wir für die lineare Regression einen Gradientenabstieg? Es scheint, dass ich die Fehlerfunktion …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.