Ich versuche, die Gradientenabstiegsoptimierung in ML-Algorithmen (Machine Learning) zu verstehen. Ich verstehe , dass es eine Kostenfunktion-wo das Ziel ist , den Fehler zu minimieren . In einem Szenario, in dem die Gewichte optimiert werden, um den minimalen Fehler zu ergeben, und partielle Ableitungen verwendet werden, ändert sich in jedem Schritt sowohl als auch oder handelt es sich um eine Kombination (z. B. wird in wenigen Iterationen nur geändert und Wenn den Fehler nicht mehr reduziert, beginnt die Ableitung mit )? Die Anwendung kann ein lineares Regressionsmodell, ein logistisches Regressionsmodell oder Boosting-Algorithmen sein.
w1, Verringernw2basierend auf der Richtung von der partiellen Ableitung versuchen , um lokale Minima zu erreichen, und nur um zu bestätigen, dass der Algorithmus nicht unbedingt immer die globalen Minima angibt?