Als «gradient-descent» getaggte Fragen

Der Gradientenabstieg ist ein iterativer Optimierungsalgorithmus erster Ordnung. Um ein lokales Minimum einer Funktion unter Verwendung eines Gradientenabfalls zu finden, werden Schritte ausgeführt, die proportional zum Negativ des Gradienten (oder des ungefähren Gradienten) der Funktion am aktuellen Punkt sind. Für den stochastischen Gradientenabstieg gibt es auch das [sgd] -Tag.




6
Zeigt der Gradient in Stochastic Gradient Descent (SGD) bei konvexen Problemen immer auf den globalen Extremwert?
Bei einer konvexen Kostenfunktion, bei der SGD für die Optimierung verwendet wird, haben wir zu einem bestimmten Zeitpunkt während des Optimierungsprozesses einen Gradienten (Vektor). Meine Frage ist, angesichts des Punktes auf der Konvexen, zeigt der Gradient nur in die Richtung, in die die Funktion am schnellsten zunimmt / abnimmt, oder …


3
Koordinate vs. Gefälle
Ich habe mich gefragt, was die verschiedenen Anwendungsfälle für die beiden Algorithmen Koordinatensinkflug und Gradientensinkflug sind . Ich weiß, dass der Koordinatenabstieg Probleme mit nicht glatten Funktionen hat, aber er wird in gängigen Algorithmen wie SVM und LASSO verwendet. Gradientenabstieg wird jedoch meiner Meinung nach häufiger eingesetzt, insbesondere bei der …

1
Gradient Backpropagation über ResNet-Skip-Verbindungen
Ich bin neugierig, wie Gradienten mithilfe von ResNet-Modulen / Überspringverbindungen über ein neuronales Netzwerk zurückgewonnen werden. Ich habe ein paar Fragen zu ResNet gesehen (z. B. Neuronales Netzwerk mit Sprungschichtverbindungen ), aber diese Frage bezieht sich speziell auf die Rückübertragung von Verläufen während des Trainings. Die grundlegende Architektur ist hier: …

3
Warum Gradientenabstieg bei neuronalen Netzen verwenden?
Wenn ein neuronales Netzwerk unter Verwendung des Back-Propagation-Algorithmus trainiert wird, wird das Gradientenabstiegsverfahren verwendet, um die Gewichtsaktualisierungen zu bestimmen. Meine Frage ist: Anstatt die Gradientenabstiegsmethode zu verwenden, um den Minimalpunkt in Bezug auf ein bestimmtes Gewicht langsam zu lokalisieren, warum setzen wir nicht einfach die Ableitung und finde den Wert …


3
Von der Perceptron-Regel zum Gradientenabstieg: Wie unterscheiden sich Perceptrons mit einer Sigmoid-Aktivierungsfunktion von der logistischen Regression?
Im Wesentlichen ist meine Frage, dass in mehrschichtigen Perzeptronen Perzeptrone mit einer Sigma-Aktivierungsfunktion verwendet werden. So dass in der Aktualisierungsregel y wird wie folgt berechnety^y^\hat{y} y^= 11 + exp( - wTxich)y^=11+exp⁡(-wTxich)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Inwiefern unterscheidet sich dieses "Sigma" -Perceptron von einer logistischen Regression? Ich würde sagen , dass eine einlagige …

2
Warum sollten Sie in neuronalen Netzen Gradientenmethoden anstelle anderer Metaheuristiken verwenden?
Warum werden beim Training tiefer und flacher neuronaler Netze im Gegensatz zu anderen Metaheuristiken häufig Gradientenmethoden (z. B. Gradientenabstieg, Nesterov, Newton-Raphson) verwendet? Mit Metaheuristik meine ich Methoden wie simuliertes Tempern, Optimierung von Ameisenkolonien usw., die entwickelt wurden, um zu vermeiden, dass sie in einem lokalen Minimum hängen bleiben.

3
Wann sind genetische Algorithmen eine gute Wahl für die Optimierung?
Genetische Algorithmen sind eine Form der Optimierungsmethode. Oft ist der stochastische Gradientenabstieg und seine Derivate die beste Wahl für die Funktionsoptimierung, aber manchmal werden noch genetische Algorithmen verwendet. Die Antenne der NASA-Raumsonde ST5 wurde beispielsweise mit einem genetischen Algorithmus erstellt: Wann sind genetische Optimierungsmethoden die bessere Wahl als häufigere Gradientenabstiegsmethoden?


3
Wie wirkt sich die Chargengröße auf die Konvergenz von SGD aus und warum?
Aus vielen Diskussionen habe ich ähnliche Schlussfolgerungen gezogen, dass die Konvergenz von SGD mit zunehmender Minibatch-Größe tatsächlich schwieriger / schlechter wird, zum Beispiel in diesem Artikel und in dieser Antwort . Ich habe auch von Leuten gehört, die im frühen Stadium Tricks wie kleine Lernraten oder Losgrößen einsetzten, um diese …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.