Der einfache Weg, dies zu erklären, besteht darin, dass Regularisierung hilft, sich nicht an das Rauschen anzupassen, und nicht viel dazu beiträgt, die Form des Signals zu bestimmen. Wenn Sie Deep Learning als einen riesigen prächtigen Funktionsapproximator betrachten, stellen Sie fest, dass er viele Daten benötigt, um die Form des komplexen Signals zu definieren.
Wenn es kein Rauschen gäbe, würde eine zunehmende Komplexität von NN eine bessere Annäherung ergeben. Es gäbe keinen Nachteil für die Größe des NN, größer wäre in jedem Fall besser gewesen. Betrachten Sie eine Taylor-Näherung, mehr Terme sind immer besser für nichtpolynomiale Funktionen (ohne Berücksichtigung numerischer Genauigkeitsprobleme).
Dies bricht bei Auftreten eines Geräusches zusammen, da Sie beginnen, sich an das Geräusch anzupassen. Hier kommt also die Regularisierung, um zu helfen: Sie kann die Anpassung an das Rauschen verringern und es uns ermöglichen, größere NN zu bauen , um nichtlineare Probleme zu berücksichtigen.
Die folgende Diskussion ist für meine Antwort nicht wesentlich, aber ich habe sie teilweise hinzugefügt, um einige Kommentare zu beantworten und den Hauptteil der obigen Antwort zu motivieren. Grundsätzlich ist der Rest meiner Antwort wie ein französisches Feuer, das mit einem Burgergericht einhergeht. Sie können es überspringen.
(Ir) relevanter Fall: Polynom-Regression
Schauen wir uns ein Spielzeugbeispiel für eine polynomielle Regression an. Es ist auch ein ziemlich guter Näherungswert für viele Funktionen. Wir werden uns die -Funktion in -Region . Wie Sie aus der Taylor-Reihe unten ersehen können, ist die Erweiterung 7. Ordnung bereits eine ziemlich gute Anpassung, daher können wir erwarten, dass ein Polynom der Ordnung 7+ auch eine sehr gute Anpassung sein sollte:x ∈ ( - 3 , 3 )sin(x)x∈(−3,3)
Als nächstes werden wir Polynome mit zunehmend höherer Ordnung in einen kleinen, sehr verrauschten Datensatz mit 7 Beobachtungen einpassen:
Wir können beobachten, was uns viele Kenner über Polynome gesagt haben: Sie sind instabil und beginnen wild zu schwingen, wenn die Reihenfolge der Polynome zunimmt.
Das Problem sind jedoch nicht die Polynome selbst. Das Problem ist der Lärm. Wenn wir Polynome an verrauschte Daten anpassen, liegt ein Teil der Anpassung am Rauschen und nicht am Signal. Hier sind die gleichen exakten Polynome, die zu demselben Datensatz passen, wobei jedoch das Rauschen vollständig entfernt wurde. Die Passformen sind super!
Beachten Sie eine optisch perfekte Anpassung für Ordnung 6. Dies sollte nicht überraschen, da nur 7 Beobachtungen erforderlich sind, um das Polynom der Ordnung 6 eindeutig zu identifizieren, und wir sahen, dass die Taylor-Näherungskurve über dieser Ordnung 6 bereits eine sehr gute Näherung für in unserem Datenbereich.sin(x)
Beachten Sie auch, dass Polynome höherer Ordnung nicht so gut passen wie die Polynome höherer Ordnung 6, da nicht genügend Beobachtungen vorliegen, um sie zu definieren. Schauen wir uns also an, was mit 100 Beobachtungen passiert. In der folgenden Tabelle sehen Sie, wie ein größerer Datensatz es uns ermöglichte, Polynome höherer Ordnung anzupassen und so eine bessere Anpassung zu erzielen!
Großartig, aber das Problem ist, dass wir normalerweise mit verrauschten Daten umgehen. Schauen Sie sich an, was passiert, wenn Sie 100 Beobachtungen mit sehr verrauschten Daten gleich bewerten (siehe folgende Tabelle). Wir kehren zu Punkt 1 zurück: Polynome höherer Ordnung erzeugen schreckliche oszillierende Anpassungen. Das Erhöhen des Datensatzes hat also nicht viel dazu beigetragen, die Komplexität des Modells zu erhöhen, um die Daten besser zu erklären. Dies liegt wiederum daran, dass ein komplexes Modell nicht nur besser an die Form des Signals, sondern auch an die Form des Rauschens angepasst werden kann.
Lassen Sie uns abschließend eine lahme Regularisierung dieses Problems versuchen. Die folgende Grafik zeigt die Regularisierung (mit unterschiedlichen Strafen), die auf die Polynomregression der Ordnung 9 angewendet wird. Vergleichen Sie dies mit der obigen Polynomanpassung (Potenz) 9: Bei einem angemessenen Grad an Regularisierung ist es möglich, Polynome höherer Ordnung an verrauschte Daten anzupassen.
Nur für den Fall, dass es nicht klar war: Ich schlage nicht vor, die polynomiale Regression auf diese Weise zu verwenden. Polynome eignen sich gut für lokale Anpassungen, daher kann ein stückweises Polynom eine gute Wahl sein. Es ist oft eine schlechte Idee, die gesamte Domäne mit ihnen zu kombinieren, da sie in der Tat geräuschempfindlich sind, wie aus den obigen Darstellungen hervorgeht. Ob das Rauschen numerisch ist oder von einer anderen Quelle stammt, ist in diesem Zusammenhang nicht so wichtig. das Rauschen ist Rauschen, und Polynome werden leidenschaftlich darauf reagieren.