Ist der mittlere quadratische Fehler im Kontext neuronaler Netze immer konvex?


9

Mehrere Ressourcen, auf die ich Bezug genommen habe, erwähnen, dass MSE großartig ist, weil es konvex ist. Aber ich verstehe nicht wie, besonders im Zusammenhang mit neuronalen Netzen.

Nehmen wir an, wir haben Folgendes:

  • X : Trainingsdatensatz
  • Y : Ziele
  • Θ : der Parametersatz des ModellsfΘ (ein neuronales Netzwerkmodell mit Nichtlinearitäten)

Dann:

MSE(Θ)=(fΘ(X)Y)2

Warum sollte diese Verlustfunktion immer konvex sein? Kommt es auf fΘ(X) ?

Antworten:


1

Kurz gesagt: MSE ist in Bezug auf Eingabe und Parameter für sich genommen konvex. In einem beliebigen neuronalen Netzwerk ist es jedoch aufgrund von Nichtlinearitäten in Form von Aktivierungsfunktionen nicht immer konvex. Quelle für meine Antwort ist hier .


1

Konvexität

f(x)xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

Es kann bewiesen werden, dass ein solches konvexes ein globales Minimum hat. Ein eindeutiges globales Minimum eliminiert Fallen, die durch lokale Minima erzeugt werden und in Algorithmen auftreten können, die versuchen, eine Konvergenz auf einem globalen Minimum zu erreichen, z. B. die Minimierung einer Fehlerfunktion.f(x)

Obwohl eine Fehlerfunktion in allen kontinuierlichen, linearen Kontexten und vielen nichtlinearen Kontexten 100% zuverlässig sein kann, bedeutet dies nicht die Konvergenz auf einem globalen Minimum für alle möglichen nichtlinearen Kontexte.

Mittlerer quadratischer Fehler

Gegeben ist eine Funktion , die das ideale Systemverhalten beschreibt, und ein Modell des Systems (wobei der Parametervektor, die Matrix, der Würfel oder der Hyperwürfel und ), das rational oder durch Konvergenz erstellt wurde (wie beim neuronalen Netztraining) kann die Funktion des mittleren quadratischen Fehlers (MSE) wie folgt dargestellt werden.s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

Das Material, das Sie lesen, behauptet wahrscheinlich nicht, dass oder in Bezug auf konvex sind , sondern dass in Bezug auf und konvex ist. egal was sie sind. Diese spätere Aussage kann für jedes stetige und bewiesen werden . a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

Verwechslung des Konvergenzalgorithmus

Wenn die Frage ist, ob ein bestimmtes und eine Methode zum Erreichen eines , die sich dem innerhalb eines angemessenen MSE-Konvergenzspielraums annähert, verwechselt werden kann, lautet die Antwort "Ja". Deshalb ist MSE nicht das einzige Fehlermodell.a(x,p)s(x)a(x,p)

Zusammenfassung

Der beste Weg, um zusammenzufassen, ist, dass definiert oder aus einer Reihe von konvexen Fehlermodellen ausgewählt werden sollte, basierend auf den folgenden Erkenntnissen.e(β)

  • Bekannte Eigenschaften des Systemss(x)
  • Die Definition des Approximationsmodellsa(x,p)
  • Tensor verwendet, um den nächsten Zustand in der konvergenten Sequenz zu erzeugen

Die Menge der konvexen Fehlermodelle umfasst aufgrund ihrer Einfachheit und Rechensparsamkeit zweifellos das MSE-Modell.


Die kurze Antwort lautet also MSE, wenn Theta immer konvex ist. Obwohl Feedforard (X, Theta) nicht konvex sein könnte?
user74211

Nun, @ user74211, dieser Kommentar beantwortet die Frage nicht wirklich. Die speziell gestellte Frage, wie der mittlere quadratische Fehler immer konvex sein kann, wenn die Funktion, für die er gilt, nicht konvex ist. Ihr Kommentar ist eine Teilmenge der Aussagen in der Frage, ohne die gesuchte Erklärung.
FauChristian
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.