Sie haben ein globales Minimum, wenn das Problem konvex oder quasikonvex ist.
Über konvexe "Bausteine" beim Aufbau neuronaler Netze (Informatikversion)
Ich denke, es gibt mehrere von ihnen, die erwähnt werden können:
max (0, x) - konvex und ansteigend
log-sum-exp - konvex und steigend in jedem Parameter
y = Axe ist affin und in (A) so konvex, dass sie zunimmt oder abnimmt. y = Axe ist affin und in (x) so konvex, dass sie zunimmt oder abnimmt.
Leider ist es in (A, x) nicht konvex, weil es wie eine unbestimmte quadratische Form aussieht.
Übliche mathematische diskrete Faltung (mit "üblich" meine ich definiert mit sich wiederholendem Signal) Y = h * X Sieht so aus, als ob es eine affine Funktion von h oder von Variable X ist. Also ist es eine konvexe in Variable h oder in Variable X. Über beide Variablen - Ich glaube nicht, denn wenn h und X Skalare sind, wird die Faltung auf eine unbestimmte quadratische Form reduziert.
max (f, g) - wenn f und g konvex sind, ist auch max (f, g) konvex.
Wenn Sie eine Funktion durch eine andere ersetzen und Kompositionen erstellen, bleiben Sie für y = h (g (x), q (x)) im konvexen Raum, aber h sollte konvex sein und in jedem Argument zunehmen (nicht abnehmen). ...
Warum neuronale Netze in nicht konvexen:
Ich denke, dass die Faltung Y = h * X in h nicht unbedingt zunimmt. Wenn Sie also keine zusätzlichen Annahmen über den Kernel treffen, verlassen Sie die konvexe Optimierung sofort, nachdem Sie die Faltung angewendet haben. Es ist also nicht alles in Ordnung mit Komposition .
Auch Faltung und Matrixmultiplikation sind nicht konvex, wenn die oben erwähnten Paarparameter berücksichtigt werden . Es gibt also evean ein Problem mit der Matrixmultiplikation: Es ist eine nicht konvexe Operation in Parametern (A, x)
y = Ax kann in (A, x) quasikonvex sein, aber es sollten auch zusätzliche Annahmen berücksichtigt werden.
Bitte lassen Sie mich wissen, wenn Sie anderer Meinung sind oder zusätzliche Überlegungen anstellen. Die Frage ist auch für mich sehr interessant.
ps max-pooling - das ist downsamping mit der auswahl von max sieht aus wie eine änderung von elementweisen max-operationen mit affiner vorkomposition (um benötigte blöcke zu ziehen) und es sieht für mich konvex aus.
Über andere Fragen
Nein, logistische Regression ist nicht konvex oder konkav, sondern logkonkav. Dies bedeutet, dass Sie nach dem Anwenden des Logarithmus eine Konkavfunktion für erklärende Variablen haben. Hier ist also der Trick mit der maximalen Log-Wahrscheinlichkeit groß.
Wenn es nicht nur ein globales Minimum gibt. Über die Beziehung zwischen den lokalen Mindestwerten kann nichts gesagt werden. Oder zumindest können Sie keine konvexe Optimierung und ihre Erweiterungen dafür verwenden, da dieser Bereich der Mathematik stark auf globaler Unterschätzung basiert.
Vielleicht haben Sie Verwirrung. Weil wirklich Leute, die solche Schemata erstellen, einfach "etwas" tun und "etwas" erhalten. Leider, weil wir keinen perfekten Mechanismus haben, um mit nicht konvexer Optimierung fertig zu werden (im Allgemeinen).
Neben neuronalen Netzen gibt es jedoch noch weitere einfache Dinge, die sich nicht wie nichtlineare kleinste Quadrate lösen lassen. Https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)