lokale Minima gegen Sattelpunkte beim Tiefenlernen


18

Ich hörte Andrew Ng (in einem Video, das ich leider nicht mehr finden kann) darüber sprechen, wie sich das Verständnis der lokalen Minima bei tiefen Lernproblemen dahingehend verändert hat, dass sie jetzt als weniger problematisch angesehen werden, weil sie sich in hochdimensionalen Räumen befinden (auf die man in trifft) Kritische Punkte sind eher Sattelpunkte oder Plateaus als lokale Minima.

Ich habe Papiere gesehen (zB dieses ), in denen Annahmen diskutiert werden, wonach "jedes lokale Minimum ein globales Minimum ist". Diese Annahmen sind alle eher technisch, aber nach meinem Verständnis neigen sie dazu, dem neuronalen Netzwerk eine Struktur aufzuerlegen, die es etwas linear macht.

Ist es eine berechtigte Behauptung, dass beim Deep Learning (einschließlich nichtlinearer Architekturen) Plateaus wahrscheinlicher sind als lokale Minima? Und wenn ja, steckt dahinter eine (möglicherweise mathematische) Intuition?

Gibt es etwas Besonderes an Deep Learning und Sattelpunkten?


12
Wenn es um die mathematische Intuition geht, warum ein Sattelpunkt wahrscheinlicher als ein lokales Minimum ist, würde ich ihn in Bezug auf die Merkmale betrachten. Um ein lokales Minimum zu sein, muss es in jede Richtung ein lokales Minimum sein. Im Gegensatz dazu muss für einen Sattelpunkt nur eine Richtung anders sein als die anderen. Es ist viel wahrscheinlicher, dass sich ein oder mehrere Personen anders verhalten als die anderen, verglichen mit dem gleichen Verhalten in alle Richtungen.
Paul

3
danke, jetzt wo du es sagst, ist es irgendwie offensichtlich ... hier ist eine interessante Diskussion über das Thema
oW_

4
Andrew Ng hat ein Video zu "Das Problem der lokalen Minima" in Woche 2 seines Coursera-Kurses "Verbessern tiefer neuronaler Netze: Hyperparametertuning, Regularisierung und Optimierung". Vielleicht ist es der, den Sie suchen.
22.

Schauen Sie sich hier um
Medien

Antworten:


7

Dies ist nur ein Versuch, meine Intuition zu vermitteln, dh keine Strenge. Die Sache mit Sattelpunkten ist, dass sie eine Art Optimum sind, das eine Kombination von Minima und Maxima kombiniert. Da die Anzahl der Dimensionen beim tiefen Lernen so groß ist, ist die Wahrscheinlichkeit, dass ein Optimum nur aus einer Kombination von Minima besteht, sehr gering. Dies bedeutet, dass es selten ist, in einem lokalen Minimum stecken zu bleiben. Bei der Gefahr einer zu starken Vereinfachung ist es schwieriger, in einer Sattelspitze zu stecken, weil Sie eine der Dimensionen herunterrutschen können. Ich denke, das Andrew Ng-Video, auf das Sie sich beziehen, stammt aus dem Coursera-Kurs über Deep Learning von ihm.


13

Lassen Sie mich eine Erklärung geben, die auf multivariater Rechnung basiert. Wenn Sie einen multivariaten Kurs absolviert haben, haben Sie gehört, dass bei einem kritischen Punkt (Punkt, an dem der Gradient Null ist) die Bedingung, dass dieser kritische Punkt ein Minimum ist, darin besteht, dass die hessische Matrix positiv bestimmt ist. Da der Hessische eine symmetrische Matrix ist, können wir ihn diagonalisieren. Wenn wir die dem Hessischen entsprechende Diagonalmatrix schreiben als: das Hessische als positiv bestimmt äquivalent zu .

D=[d1dn]
d1>0,,dn>0

Lassen Sie uns nun über Funktionen für tiefe Lernkosten nachdenken. Deep-Learning-Kostenfunktionen hängen in sehr komplizierter Weise von vielen Parametern ab, sodass der hessische Ausdruck selbst kompliziert ist. Aus diesem Grund können wir dass die Werte von nicht auf negative oder positive Werte ausgerichtet sind. Aus diesem Grund kann bei jedem kritischen Punkt angenommen werden, dass die Wahrscheinlichkeit, dass jeder Wert positiv ist, beträgt . Darüber hinaus ist anzunehmen, dass die Werte von aufgrund der hohen Nichtlinearität der hessischen Matrix nicht leicht von den Werten von abhängen , so dass wir die Wahrscheinlichkeiten, dass sie positiv sind, als unabhängige Ereignisse betrachten.d1,,dndi1/2didj

Aus diesem Grund ist die Wahrscheinlichkeit, dass es sich bei einem kritischen Punkt um ein Minimum handelt, wie folgt:

P(d1>0,,dn>0)=P(d1>0)P(dn>0)=12n

Die Wahrscheinlichkeit, dass ein kritischer Punkt ein Minimum darstellt, nimmt exponentiell mit der Dimension des Eingaberaums ab. In Deep Learning kann dieser Bereich von 1000 bis reichen , und in beiden Fällen ist 1/2 lächerlich klein. Jetzt sind wir überzeugt, dass es angesichts eines kritischen Punktes, auf den wir stoßen, sehr unwahrscheinlich ist, dass es sich um ein Minimum handelt.1081/2n

Aber was ist mit Maxima?

Die Maxima einer Funktion sind die Minima minus der Funktion. Aus diesem Grund können alle zuvor verwendeten Argumente verwendet werden, um die Kostenfunktion abzusenken, und wir schließen daraus, dass jeder kritische Punkt mit einer Wahrscheinlichkeit von maximal ist.1/2n

Aus diesem Grund ist bei einem kritischen Punkt die Wahrscheinlichkeit, dass es sich um einen Sattelpunkt handelt,

P(saddle)=1P(maximum)P(minimum)=112n12n=112n1

Welches ist sehr nahe an 1, wenn groß genug ist (was typischerweise in Deep Learning ist).n

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.