Ich lese Why Momentum Really Works , einen Beitrag aus dem neuen Destillationsjournal. Ich werde die Hauptgleichungen umschreiben, die zu dem Teil führen, der mich verwirrt. Der Beitrag beschreibt die Intuition genauer.
Der Gradientenabstiegsalgorithmus ist durch den folgenden iterativen Prozess gegeben: wobei der Wert der Iteration , die Lernrate und ist der Gradient der bei ausgewerteten Funktion . Die Funktion Sie minimieren möchten.
Der Gradientenabstieg mit Impuls wird durch Hinzufügen von "Gedächtnis" zum Abstieg angegeben. Dies wird durch das Gleichungspaar beschrieben:
Im nächsten Abschnitt "Erste Schritte: Gradientenabstieg" betrachtet der Autor eine konvexe quadratische Funktion mit Gradient Wenn wir annehmen, dass symmetrisch und invertierbar ist, dann hat die optimale Lösung .
Wenn wir einen Gradientenabstieg verwenden würden, würden wir auf folgende Weise zu dieser optimalen Lösung iterieren:
Dann heißt es in dem Artikel weiter: "Es gibt einen sehr natürlichen Raum, um den Gradientenabstieg zu betrachten, in dem alle Dimensionen unabhängig voneinander wirken - die Eigenvektoren von ". Ich denke, das macht Sinn, obwohl meine Intuition irgendwie verschwommen ist.
Jede symmetrische Matrix hat eine Eigenwertzerlegung mit
Wobei und der Vektor mit den entsprechenden Eigenvektoren als Spalten ist (richtig?).
Im nächsten Teil verstehe ich nicht, was los ist:
Wenn wir einen Basiswechsel durchführen, , brechen die Iterationen auseinander und werden:
Umzug zurück zu unserem ursprünglichen Raum , können wir sehen , dass
Was geht hier vor sich? Wo ist die Motivation, in die Eigendomäne aufzunehmen? Was ist ? Warum betrachten wir jetzt einzelne Elemente des Vektors? Ich habe versucht, den Berechnungen zu folgen, aber hängt von was von abhängt , von dem ich dachte, wir wollten es beseitigen. Meine Frage ist, kann jemand diese wenigen Schritte mit etwas Intuition und Berechnungen erweitern? Vielen Dank.