Wenn ein neuronales Netzwerk unter Verwendung des Back-Propagation-Algorithmus trainiert wird, wird das Gradientenabstiegsverfahren verwendet, um die Gewichtsaktualisierungen zu bestimmen. Meine Frage ist: Anstatt die Gradientenabstiegsmethode zu verwenden, um den Minimalpunkt in Bezug auf ein bestimmtes Gewicht langsam zu lokalisieren, warum setzen wir nicht einfach die Ableitung und finde den Wert des Gewichtsw,der den Fehler minimiert?
Warum sind wir uns auch sicher, dass die Fehlerfunktion bei der Rückübertragung ein Minimum ist? Kann es nicht sein, dass die Fehlerfunktion stattdessen maximal ist? Gibt es eine spezielle Eigenschaft der Squashing-Funktionen, die garantiert, dass ein Netzwerk mit einer beliebigen Anzahl von versteckten Knoten mit willkürlichen Gewichten und Eingabevektoren immer eine Fehlerfunktion liefert, die einige Minima aufweist?