Wie kann man die optimale Lernrate für den Gradientenabstieg bestimmen? Ich denke, ich könnte es automatisch anpassen, wenn die Kostenfunktion einen größeren Wert als in der vorherigen Iteration zurückgibt (der Algorithmus konvergiert nicht), aber ich bin mir nicht sicher, welchen neuen Wert er annehmen soll.