Als «gradient-descent» getaggte Fragen

Der Gradientenabstieg ist ein iterativer Optimierungsalgorithmus erster Ordnung. Um ein lokales Minimum einer Funktion unter Verwendung eines Gradientenabfalls zu finden, werden Schritte ausgeführt, die proportional zum Negativ des Gradienten (oder des ungefähren Gradienten) der Funktion am aktuellen Punkt sind. Für den stochastischen Gradientenabstieg gibt es auch das [sgd] -Tag.


1
Gradientenabstieg oder nicht für einfache lineare Regression
Es gibt eine Reihe von Websites, die den Gradientenabstieg beschreiben, um die Parameter für die einfache lineare Regression zu finden ( hier ist einer davon). Google beschreibt es auch in ihrem neuen (für die Öffentlichkeit) ML-Kurs. Jedoch auf Wikipedia , die folgenden Formeln , die Parameter zur Berechnung α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle …

3
Gradientenabstieg bei nicht konvexen Funktionen
Welche Situationen kennen wir, in denen gezeigt werden kann, dass der Gradientenabstieg für nicht konvexe Funktionen konvergiert (entweder zu einem kritischen Punkt oder zu einem lokalen / globalen Minimum)? Für SGD zu nicht konvexen Funktionen wurde hier eine Art von Beweis überprüft: http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf

1
Definition der Komplexität eines Baumes in xgboost
Als ich über den xgboost-Algorithmus recherchierte, ging ich die Dokumentation durch . Bei diesem Ansatz werden Bäume unter Verwendung der Komplexitätsdefinition wobei und Parameter sind, die Anzahl von ist Terminalblätter und ist die Punktzahl in jedem Blatt.Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 γγ\gammaλλ\lambdaTTTwjwjw_j Ich frage mich: …

2
Wie breiten sich Gradienten in einem nicht abgerollten wiederkehrenden neuronalen Netzwerk aus?
Ich versuche zu verstehen, wie rnns verwendet werden können, um Sequenzen anhand eines einfachen Beispiels vorherzusagen. Hier ist mein einfaches Netzwerk, bestehend aus einem Eingang, einem versteckten Neuron und einem Ausgang: Das versteckte Neuron ist die Sigmoidfunktion, und die Ausgabe wird als einfache lineare Ausgabe angesehen. Ich denke, das Netzwerk …

2
Gradient der multivariaten Gaußschen Log-Wahrscheinlichkeit
Ich versuche, die MAP-Schätzung für ein Modell durch Gradientenabstieg zu finden. Mein Prior ist ein multivariater Gaußscher mit einer bekannten Kovarianzmatrix. Auf konzeptioneller Ebene glaube ich zu wissen, wie man das macht, aber ich hatte auf Hilfe bei den Details gehofft. Insbesondere wenn es einen einfacheren Weg gibt, sich dem …

1
Anpassen eines Gaußschen Mischungsmodells unter Verwendung eines stochastischen Gradientenabfalls
Ich arbeite an einem Online-Lernmodell für Kategorien, das einen stochastischen Gradientenabstieg verwendet, um ein Gaußsches Mischungsmodell anzupassen. Das Modell basiert auf dem Online-Lernmodell von Toscano & McMurray (2010). Während der Gradientenabstieg ziemlich gut zu funktionieren scheint, um die Mittelwerte und Häufigkeiten / Mischungswahrscheinlichkeiten der Kategorien abzuschätzen, habe ich Probleme mit …

2
Umgang mit kleinen Losgrößen im SGD-Training
Ich versuche, ein großes Modell (tiefes Netz mit Kaffee) mit stochastischem Gradientenabstieg (SGD) zu trainieren. Das Problem ist, dass ich durch meine GPU-Speicherkapazität eingeschränkt bin und daher keine großen Mini-Batches für jede stochastische Gradientenschätzung verarbeiten kann. Wie kann ich diese Instabilität in meinem Training überwinden? Ein Gedanke, den ich hatte, …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.