Lassen Sie mich eine Erklärung geben, die auf multivariater Rechnung basiert. Wenn Sie einen multivariaten Kurs absolviert haben, haben Sie gehört, dass bei einem kritischen Punkt (Punkt, an dem der Gradient Null ist) die Bedingung, dass dieser kritische Punkt ein Minimum ist, darin besteht, dass die hessische Matrix positiv bestimmt ist. Da der Hessische eine symmetrische Matrix ist, können wir ihn diagonalisieren. Wenn wir die dem Hessischen entsprechende Diagonalmatrix schreiben als:
das Hessische als positiv bestimmt äquivalent zu .
D=⎡⎣⎢⎢d1⋱dn⎤⎦⎥⎥
d1>0,…,dn>0
Lassen Sie uns nun über Funktionen für tiefe Lernkosten nachdenken. Deep-Learning-Kostenfunktionen hängen in sehr komplizierter Weise von vielen Parametern ab, sodass der hessische Ausdruck selbst kompliziert ist. Aus diesem Grund können wir dass die Werte von nicht auf negative oder positive Werte ausgerichtet sind. Aus diesem Grund kann bei jedem kritischen Punkt angenommen werden, dass die Wahrscheinlichkeit, dass jeder Wert positiv ist, beträgt . Darüber hinaus ist anzunehmen, dass die Werte von aufgrund der hohen Nichtlinearität der hessischen Matrix nicht leicht von den Werten von abhängen , so dass wir die Wahrscheinlichkeiten, dass sie positiv sind, als unabhängige Ereignisse betrachten.d1,…,dndi1/2didj
Aus diesem Grund ist die Wahrscheinlichkeit, dass es sich bei einem kritischen Punkt um ein Minimum handelt, wie folgt:
P(d1>0,…,dn>0)=P(d1>0)⋅⋯⋅P(dn>0)=12n
Die Wahrscheinlichkeit, dass ein kritischer Punkt ein Minimum darstellt, nimmt exponentiell mit der Dimension des Eingaberaums ab. In Deep Learning kann dieser Bereich von 1000 bis reichen , und in beiden Fällen ist 1/2 lächerlich klein. Jetzt sind wir überzeugt, dass es angesichts eines kritischen Punktes, auf den wir stoßen, sehr unwahrscheinlich ist, dass es sich um ein Minimum handelt.1081/2n
Aber was ist mit Maxima?
Die Maxima einer Funktion sind die Minima minus der Funktion. Aus diesem Grund können alle zuvor verwendeten Argumente verwendet werden, um die Kostenfunktion abzusenken, und wir schließen daraus, dass jeder kritische Punkt mit einer Wahrscheinlichkeit von maximal ist.1/2n
Aus diesem Grund ist bei einem kritischen Punkt die Wahrscheinlichkeit, dass es sich um einen Sattelpunkt handelt,
P(saddle)=1−P(maximum)−P(minimum)=1−12n−12n=1−12n−1
Welches ist sehr nahe an 1, wenn groß genug ist (was typischerweise in Deep Learning ist).n