Ich habe vor ein paar Monaten Andrew Ngs Kurs "Maschinelles Lernen" über Coursera besucht, ohne auf die meisten Mathematik / Ableitungen zu achten und mich stattdessen auf Implementierung und Praktikabilität zu konzentrieren. Seitdem habe ich wieder angefangen, einige der zugrunde liegenden Theorien zu studieren, und einige der Vorlesungen von Prof. Ng erneut besucht. Ich las seinen Vortrag über "Regularisierte lineare Regression" durch und sah, dass er die folgende Kostenfunktion gab:
Dann gibt er den folgenden Gradienten für diese Kostenfunktion an:
Ich bin ein wenig verwirrt darüber, wie er von einem zum anderen kommt. Als ich versuchte, meine eigene Ableitung vorzunehmen, hatte ich folgendes Ergebnis:
Der Unterschied ist das Pluszeichen zwischen der ursprünglichen Kostenfunktion und dem Regularisierungsparameter in der Formel von Prof. Ng, der sich in seiner Gradientenfunktion in ein Minuszeichen ändert, während dies in meinem Ergebnis nicht der Fall ist.
Intuitiv verstehe ich, warum es negativ ist: Wir reduzieren den Theta-Parameter um die Gradientenzahl, und wir möchten, dass der Regularisierungsparameter den Betrag reduziert, um den wir den Parameter ändern, um eine Überanpassung zu vermeiden. Ich bin nur ein wenig auf den Kalkül fixiert, der diese Intuition stützt.
Zu Ihrer Information, Sie finden das Deck hier auf den Folien 15 und 16.