Wenn wir die Kostenfunktion differenzieren und Parameter finden können, indem wir Gleichungen lösen, die durch partielle Differenzierung in Bezug auf jeden Parameter erhalten wurden, und herausfinden, wo die Kostenfunktion minimal ist. Ich denke auch, dass es möglich ist, mehrere Orte zu finden, an denen die Ableitungen Null sind, wodurch wir nach all diesen Orten suchen und globale Minima finden können
Warum wird stattdessen ein Gradientenabstieg durchgeführt?