Viele Referenzen (einschließlich Wikipedia und http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf und http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) definieren das Derivat von a Funktion durch einen Vektor als partielle Ableitungen der in einer Reihe angeordneten Funktion (eine Ableitung einer skalarwertigen Funktion ist also ein Zeilenvektor). In dieser Konvention sind der Gradient und die Vektorableitung Transponierungen voneinander. Der Vorteil dieser Konvention besteht darin, dass wir die Bedeutung der Ableitung als eine Funktion interpretieren können, die Ihnen die lineare Änderungsrate in jeder Richtung angibt. Der Gradient bleibt ein Vektor, er gibt die Richtung und Größe der größten Änderungsrate an.
Ich habe kürzlich Gentles Matrix-Algebra ( http://books.google.com/books/about/Matrix_Algebra.html?id=Pbz3D7Tg5eoC ) gelesen und er scheint eine andere Konvention zu verwenden, bei der der Gradient als gleich der resultierenden Vektorableitung definiert wird in einer Spaltenanordnung (also ist eine Ableitung einer skalarwertigen Funktion ein Spaltenvektor). Infolge dieser Anordnung ist jedes Differenzierungsergebnis die Transponierung des Ergebnisses in der anderen Konvention. Ich vermute hier, dass der Vorteil dieser Konvention nur darin besteht, dass der Gradient und die Ableitung gleich sind. Für Optimierungsaufgaben können Sie also einfach differenzieren, anstatt zu differenzieren und dann die Transponierung vorzunehmen.
Ich denke, die Spannung liegt zwischen Jacobian und Gradient. In der Zeilenkonvention folgt der Jacobi direkt aus der Definition der Ableitung, aber Sie müssen eine Transponierte anwenden, um den Gradienten zu erhalten. Während in der Spaltenkonvention der Gradient derjenige ist, der nicht transponiert werden muss, müssen Sie eine Transponierung anwenden, um den Jacobian zu erhalten. Wenn Sie das abgeleitete Ergebnis also lieber als lineare Abbildung betrachten möchten, ist die erste Konvention sinnvoll. Wenn Sie das Ergebnis lieber als Vektor / Richtung betrachten möchten, ist die zweite Konvention sinnvoll. Man muss also nur konsequent sein.
Welche dieser Konventionen wird beim maschinellen Lernen häufiger verwendet? Werde ich hoffnungslos verwirrt, wenn ich zu viel Zeit damit verbringe, Arbeit in der "falschen" Konvention zu lesen?