37

Ein Problem, das ich im Zusammenhang mit neuronalen Netzen im Allgemeinen und Deep Neural Networks im Besonderen häufig gesehen habe, ist, dass sie "datenhungrig" sind - das heißt, dass sie nur dann eine gute Leistung erbringen, wenn wir einen großen Datenbestand haben mit dem man das netzwerk trainiert.

Meines Wissens liegt dies an der Tatsache, dass NNets, insbesondere Deep NNets, eine große Anzahl von Freiheitsgraden haben. Als Modell hat ein NNet eine sehr große Anzahl von Parametern, und wenn die Anzahl der Parameter des Modells relativ zur Anzahl der Trainingsdatenpunkte groß ist, besteht eine erhöhte Tendenz zur Überanpassung.

Aber warum wird dieses Problem nicht durch Regularisierung gelöst? Soweit ich weiß, können NNets L1- und L2-Regularisierung verwenden und haben auch ihre eigenen Regularisierungsmethoden wie Dropout, mit denen die Anzahl der Parameter im Netzwerk reduziert werden kann.

Können wir unsere Regularisierungsmethoden so wählen, dass sie Sparsamkeit erzwingen und die Größe des Netzwerks begrenzen?

Um meine Überlegungen zu verdeutlichen: Angenommen, wir verwenden ein großes Deep NNet, um unsere Daten zu modellieren, aber der Datensatz ist klein und könnte tatsächlich durch ein lineares Modell modelliert werden. Warum konvergieren dann die Netzwerkgewichte nicht so, dass ein Neuron die lineare Regression simuliert und alle anderen zu Nullen konvergieren? Warum hilft Regularisierung dabei nicht?

neural-networks deep-learning regularization

— Setzen Sie Monica wieder ein
quelle

7

"Warum konvergieren dann die Netzwerkgewichte nicht so, dass ein Neuron die lineare Regression simuliert und alle anderen zu Nullen konvergieren? Warum hilft Regularisierung dabei nicht?" Ich denke tatsächlich, dass dies ein wirklich interessantes Papier wäre: Bauen Sie das Netzwerk und das Problem auf und bewerten Sie dann, was passiert.

— Setzen Sie Monica

Nun, Sie haben das Problem, dass sich die Verläufe später in tieferen Schichten des Netzwerks verringern, selbst wenn Sie regulieren. Aus diesem Grund verwenden die Leute die Batch-Normalisierung, um effektiv das zu tun, was Sie beschreiben. Andere Ansätze (wie LSTM) tragen bereits dazu bei, und es gibt Dinge, die bei Hunger helfen können, wie zum Beispiel Schulabbrecher.

— Benjamin Gruenbaum

Reddit Diskussion: reddit.com/r/MachineLearning/comments/8izegs/…

— Benjamin Crouzier

Wie @cliffab unten antwortet, ist Regularisierung nicht das, was Sie zur Verbesserung der Leistung benötigen. Vereinfacht ausgedrückt ist ein Bündel gedrehter Katzenbilder nicht dasselbe wie ein einzelnes Katzenbild mit Regularisierung.

— Seanv507

1

Ich bin überhaupt nicht überrascht. Mit der Art von Zeitreihen, mit der ich mich bei der Arbeit beschäftige, muss ich noch eine Methode finden, die die alten Methoden der Skool-Zeitreihen übertrifft, aber ich versuche es weiter :)

— Aksakal

43

Der einfache Weg, dies zu erklären, besteht darin, dass Regularisierung hilft, sich nicht an das Rauschen anzupassen, und nicht viel dazu beiträgt, die Form des Signals zu bestimmen. Wenn Sie Deep Learning als einen riesigen prächtigen Funktionsapproximator betrachten, stellen Sie fest, dass er viele Daten benötigt, um die Form des komplexen Signals zu definieren.

Wenn es kein Rauschen gäbe, würde eine zunehmende Komplexität von NN eine bessere Annäherung ergeben. Es gäbe keinen Nachteil für die Größe des NN, größer wäre in jedem Fall besser gewesen. Betrachten Sie eine Taylor-Näherung, mehr Terme sind immer besser für nichtpolynomiale Funktionen (ohne Berücksichtigung numerischer Genauigkeitsprobleme).

Dies bricht bei Auftreten eines Geräusches zusammen, da Sie beginnen, sich an das Geräusch anzupassen. Hier kommt also die Regularisierung, um zu helfen: Sie kann die Anpassung an das Rauschen verringern und es uns ermöglichen, größere NN zu bauen , um nichtlineare Probleme zu berücksichtigen.

Die folgende Diskussion ist für meine Antwort nicht wesentlich, aber ich habe sie teilweise hinzugefügt, um einige Kommentare zu beantworten und den Hauptteil der obigen Antwort zu motivieren. Grundsätzlich ist der Rest meiner Antwort wie ein französisches Feuer, das mit einem Burgergericht einhergeht. Sie können es überspringen.

(Ir) relevanter Fall: Polynom-Regression

Schauen wir uns ein Spielzeugbeispiel für eine polynomielle Regression an. Es ist auch ein ziemlich guter Näherungswert für viele Funktionen. Wir werden uns die -Funktion in -Region . Wie Sie aus der Taylor-Reihe unten ersehen können, ist die Erweiterung 7. Ordnung bereits eine ziemlich gute Anpassung, daher können wir erwarten, dass ein Polynom der Ordnung 7+ auch eine sehr gute Anpassung sein sollte: $\sin(x)$ $x\in(-3,3)$

Als nächstes werden wir Polynome mit zunehmend höherer Ordnung in einen kleinen, sehr verrauschten Datensatz mit 7 Beobachtungen einpassen:

Wir können beobachten, was uns viele Kenner über Polynome gesagt haben: Sie sind instabil und beginnen wild zu schwingen, wenn die Reihenfolge der Polynome zunimmt.

Das Problem sind jedoch nicht die Polynome selbst. Das Problem ist der Lärm. Wenn wir Polynome an verrauschte Daten anpassen, liegt ein Teil der Anpassung am Rauschen und nicht am Signal. Hier sind die gleichen exakten Polynome, die zu demselben Datensatz passen, wobei jedoch das Rauschen vollständig entfernt wurde. Die Passformen sind super!

Beachten Sie eine optisch perfekte Anpassung für Ordnung 6. Dies sollte nicht überraschen, da nur 7 Beobachtungen erforderlich sind, um das Polynom der Ordnung 6 eindeutig zu identifizieren, und wir sahen, dass die Taylor-Näherungskurve über dieser Ordnung 6 bereits eine sehr gute Näherung für in unserem Datenbereich. $\sin(x)$

Beachten Sie auch, dass Polynome höherer Ordnung nicht so gut passen wie die Polynome höherer Ordnung 6, da nicht genügend Beobachtungen vorliegen, um sie zu definieren. Schauen wir uns also an, was mit 100 Beobachtungen passiert. In der folgenden Tabelle sehen Sie, wie ein größerer Datensatz es uns ermöglichte, Polynome höherer Ordnung anzupassen und so eine bessere Anpassung zu erzielen!

Großartig, aber das Problem ist, dass wir normalerweise mit verrauschten Daten umgehen. Schauen Sie sich an, was passiert, wenn Sie 100 Beobachtungen mit sehr verrauschten Daten gleich bewerten (siehe folgende Tabelle). Wir kehren zu Punkt 1 zurück: Polynome höherer Ordnung erzeugen schreckliche oszillierende Anpassungen. Das Erhöhen des Datensatzes hat also nicht viel dazu beigetragen, die Komplexität des Modells zu erhöhen, um die Daten besser zu erklären. Dies liegt wiederum daran, dass ein komplexes Modell nicht nur besser an die Form des Signals, sondern auch an die Form des Rauschens angepasst werden kann.

Lassen Sie uns abschließend eine lahme Regularisierung dieses Problems versuchen. Die folgende Grafik zeigt die Regularisierung (mit unterschiedlichen Strafen), die auf die Polynomregression der Ordnung 9 angewendet wird. Vergleichen Sie dies mit der obigen Polynomanpassung (Potenz) 9: Bei einem angemessenen Grad an Regularisierung ist es möglich, Polynome höherer Ordnung an verrauschte Daten anzupassen.

Nur für den Fall, dass es nicht klar war: Ich schlage nicht vor, die polynomiale Regression auf diese Weise zu verwenden. Polynome eignen sich gut für lokale Anpassungen, daher kann ein stückweises Polynom eine gute Wahl sein. Es ist oft eine schlechte Idee, die gesamte Domäne mit ihnen zu kombinieren, da sie in der Tat geräuschempfindlich sind, wie aus den obigen Darstellungen hervorgeht. Ob das Rauschen numerisch ist oder von einer anderen Quelle stammt, ist in diesem Zusammenhang nicht so wichtig. das Rauschen ist Rauschen, und Polynome werden leidenschaftlich darauf reagieren.

— Aksakal
quelle

8

Und wenn Ihr Datensatz klein ist, ist es sehr schwierig, zwischen Rauschen und Nicht-Rauschen zu unterscheiden.

— Alex R.

3

— Tatsächlich

6

@Alex - warum sollte es sich standardmäßig um ein einfacheres Modell handeln? Es gibt ungeklärte Variabilitäten, die durch eine Erhöhung der Komplexität noch angepasst werden können! Und ... das Ziel ist es, die unerklärliche Variabilität so weit wie möglich zu reduzieren ... wenn dies nicht der Fall wäre, würde die NN standardmäßig das einfachste mögliche Modell verwenden, nämlich "0". Aber wie Aksakal geschrieben hat, passt die NN, da sie diese unerklärliche Variabilität in den Daten immer mehr verringert, auch zu unerklärlicher Variabilität, dh zu Überanpassung - daher ist eine Regularisierung erforderlich.

— Bogenschütze

2

Eine andere Sache: Angenommen, der zugrunde liegende Prozess, den Sie modellieren, ist verrauscht, z. B. menschliches Abstimmungsverhalten oder ein gesundheitliches Ergebnis, das grundsätzlich schwer vorherzusagen ist. Sagen Sie auch, dass Ihre Daten mit allen Arten von Messfehlern und vielleicht sogar mit einem gewissen Selektionsfehler behaftet sind. In einer Umgebung mit so hohem Rauschen und Signal würde ich nicht nur ein einfacheres Modell mit Regularisierung bevorzugen. Vielleicht bevorzuge ich sogar weniger Daten, damit ich trotz aller Regularisierungsbemühungen nicht sehr genau ein paar Geräusche messe.

— Dreistes Gleichgewicht

2

@BrashEquilibrium - ein ausgezeichneter Punkt. Wir machen einige groß angelegte Vorhersagen mit Steigungsverstärkungsmaschinen mit in der Nähe von 150 Merkmalen, von denen viele einen hohen Geräuschpegel aufweisen (aber immer noch die Vorhersagequalität verbessern), und haben festgestellt, dass die GBM 20% der Daten zum Trainieren bereitstellen on liefert bessere Prognosen als 50% oder mehr, selbst wenn alle anderen Regularisierungsmechanismen angewendet werden.

— Bogenschütze

7

Zu diesem Zeitpunkt ist nicht klar, wann und warum bestimmte Regularisierungsmethoden erfolgreich sind und scheitern. In der Tat ist es überhaupt nicht verstanden, warum Deep Learning überhaupt funktioniert.

In Anbetracht der Tatsache, dass ein ausreichend tiefes neuronales Netz die meisten wohlerzogenen Trainingsdaten perfekt speichern kann, gibt es erheblich mehr falsche Lösungen als für ein bestimmtes tiefes Netz richtig sind. Regularisierung ist im Großen und Ganzen ein Versuch, die Ausdruckskraft von Modellen für diese "falschen" Lösungen einzuschränken - wobei "falsch" durch Heuristiken definiert wird, die wir für einen bestimmten Bereich für wichtig halten . Aber oft ist es schwierig, die Heuristik so zu definieren, dass man damit nicht die "richtige" Ausdruckskraft verliert. Ein gutes Beispiel dafür sind L2-Strafen.

Nur sehr wenige Methoden, die als eine Form der Regularisierung angesehen werden könnten, sind im Allgemeinen auf alle Anwendungsbereiche von ML anwendbar. Visions-, NLP- und strukturierte Vorhersageprobleme verfügen alle über ein eigenes Kochbuch mit Regularisierungstechniken, von denen nachgewiesen wurde, dass sie experimentell für diese bestimmten Bereiche wirksam sind. Aber auch in diesen Bereichen sind diese Techniken nur unter bestimmten Umständen wirksam. Zum Beispiel scheint die Batch-Normalisierung in tiefen verbleibenden Netzen den Ausfall überflüssig zu machen, obwohl gezeigt wurde, dass beide unabhängig voneinander die Generalisierung verbessern.

Ich denke, der Begriff Regularisierung ist so weit gefasst, dass es schwierig ist, etwas darüber zu verstehen. Angesichts der Tatsache, dass Faltungen den Parameterraum in Bezug auf Pixel exponentiell einschränken, könnten Sie das neuronale Faltungsnetz als eine Form der Regularisierung im neuronalen Vanillenetz betrachten.

— Austin Shin
quelle

Ich bin nicht sicher, ob ich Ihrem ersten Absatz zustimme.

— Ander Biguri

3

Es ist schwer, in 500 Zeichen darüber zu sprechen, aber die besten Forscher der Welt behaupten, dass der Erfolg von SGD nicht gut verstanden wird. Nehmen Sie zum Beispiel Ilya S. von OpenAI: youtube.com/watch?v=RvEwFvl-TrY&feature=youtu.be&t=339

— Austin Shin

Stimmen Sie vollkommen überein - wahrscheinlich der Grund, warum es einfacher ist, mit Polynomannäherungen als mit tatsächlichen Netzen zu argumentieren ...

— P-Gn

3

Eine Klasse von Theoremen, die zeigen, warum dieses Problem grundlegend ist, sind die No Free Lunch Theoreme . Für jedes Problem mit begrenzten Stichproben, bei dem eine bestimmte Regularisierung hilfreich ist, gibt es ein weiteres Problem, bei dem dieselbe Regularisierung die Situation verschlimmert. Wie Austin ausführt, ist die L1 / L2-Regularisierung im Allgemeinen für viele reale Probleme hilfreich, dies ist jedoch nur eine Beobachtung, und aufgrund der NFL-Theoreme kann es keine allgemeinen Garantien geben.

— Greg Ver Steeg
quelle

3

Ich würde sagen, dass auf hohem Niveau die induktive Vorspannung von DNNs (tiefen neuronalen Netzen) leistungsfähig ist, aber etwas zu locker oder nicht gut genug beurteilt. Damit meine ich, dass DNNs viele Oberflächenstatistiken darüber erfassen, was gerade vor sich geht, aber nicht zu einer tieferen kausalen / kompositorischen Struktur auf hoher Ebene gelangen. (Sie könnten Windungen als eine induktive Vorspannungsspezifikation für Arme betrachten).

Darüber hinaus wird in der maschinellen Lerngemeinschaft angenommen, dass der beste Weg zur Verallgemeinerung (gute Schlussfolgerungen / Vorhersagen mit wenigen Daten) darin besteht, das kürzeste Programm zu finden, das die Daten hervorgebracht hat. Aber Programmeinführung / -synthese ist schwierig und wir haben keine gute Möglichkeit, dies effizient zu tun. Stattdessen verlassen wir uns auf eine enge Annäherung, nämlich die Suche nach Schaltkreisen, und wir wissen, wie dies mit Backpropagation möglich ist. Hier gibt Ilya Sutskever einen Überblick über diese Idee.

Um den Unterschied in der Verallgemeinerungsstärke von Modellen, die als tatsächliche Programme dargestellt werden, im Vergleich zu Deep-Learning-Modellen zu veranschaulichen, zeige ich den in diesem Artikel beschriebenen Unterschied: Simulation als Motor für das Verständnis physikalischer Szenen .

(A) Das IPE-Modell (intuitive Physik-Engine) verwendet Eingaben (z. B. Wahrnehmung, Sprache, Gedächtnis, Bilder usw.), die eine Verteilung über Szenen instanziieren (1), und simuliert dann die Auswirkungen der Physik auf die Verteilung (2). und aggregiert dann die Ergebnisse für die Ausgabe an andere sensomotorische und kognitive Fähigkeiten (3)

(B) Exp. 1 (Wird es fallen?) Turmreize. Der Turm mit dem roten Rand ist tatsächlich fein ausbalanciert, und die anderen beiden sind gleich hoch, aber der blau umrandete Turm wird von Modell und Personen als wesentlich weniger wahrscheinlich eingestuft.

(C) Probabilistisches IPE-Modell (x-Achse) vs. 1. Siehe Abb. S3 für Korrelationen für andere Werte von σ und ϕ. Jeder Punkt repräsentiert einen Turm (mit SEM) und die drei farbigen Kreise entsprechen den drei Türmen in B.

(D) Grundwahrheit (nicht wahrscheinlich) gegen menschliche Urteile (Exp. 1). Da es keine Unsicherheit darstellt, kann es nicht die Urteile von Menschen über eine Reihe unserer Reize erfassen, wie zum Beispiel den rot umrandeten Turm in B. instabil und es wird erwartet, dass das IPE besser mit der Grundwahrheit korreliert als mit unseren Reizen.)

Mein Punkt hier ist, dass die Anpassung in C wirklich gut ist, weil das Modell die richtigen Vorurteile darüber erfasst, wie Menschen physikalische Urteile fällen. Dies ist zum großen Teil darauf zurückzuführen, dass es die tatsächliche Physik modelliert (denken Sie daran, dass es sich um eine tatsächliche Physik-Engine handelt) und mit Unsicherheit umgehen kann.

Nun ist die offensichtliche Frage: Können Sie das mit tiefem Lernen tun? Dies ist, was Lerer et al in dieser Arbeit getan haben: Physische Intuition von Blocktürmen anhand eines Beispiels lernen

Ihr Modell:

Ihr Modell ist tatsächlich ziemlich gut für die anstehende Aufgabe (Vorhersage der Anzahl fallender Blöcke und sogar ihrer Fallrichtung)

Es weist jedoch zwei Hauptnachteile auf:

Es braucht eine riesige Datenmenge, um richtig zu trainieren
Verallgemeinert nur in flacher Form: Sie können auf realistischere Bilder übertragen, 1 oder 2 Blöcke hinzufügen oder entfernen. Aber alles darüber hinaus, und die Leistung sinkt katastrophal: Addiere 3 oder 4 Blöcke, ändere die Vorhersage-Aufgabe ...

Es gab eine Vergleichsstudie von Tenenbaums Labor zu diesen beiden Ansätzen: Eine vergleichende Bewertung der ungefähren probabilistischen Simulation und der tiefen neuronalen Netze als Erklärungen für das Verständnis der menschlichen physischen Szene .

Zitieren des Diskussionsteils:

Die Leistung von CNNs nimmt ab, da weniger Trainingsdaten vorliegen. Obwohl AlexNet (nicht vortrainiert) mit 200.000 Trainingsbildern eine bessere Leistung erbringt, leidet es auch mehr unter dem Mangel an Daten, während AlexNet vortrainiert in der Lage ist, aus einer kleinen Menge von Trainingsbildern besser zu lernen. Für unsere Aufgabe benötigen beide Modelle ungefähr 1.000 Bilder, damit ihre Leistung mit der des IPE-Modells und des Menschen vergleichbar ist.

CNNs haben auch begrenzte Verallgemeinerungsfähigkeiten über selbst kleine Szenenvariationen, wie z. B. das Ändern der Anzahl von Blöcken. Im Gegensatz dazu verallgemeinern und erfassen IPE-Modelle auf natürliche Weise, wie die Genauigkeit der menschlichen Beurteilung mit der Anzahl der Blöcke in einem Stapel abnimmt.

Zusammengenommen weisen diese Ergebnisse auf etwas Grundlegendes an der menschlichen Kognition hin, das neuronale Netze (oder zumindest CNNs) derzeit nicht erfassen: die Existenz eines mentalen Modells der kausalen Prozesse der Welt. Es können kausale mentale Modelle simuliert werden, um vorherzusagen, was in qualitativ neuartigen Situationen passieren wird, und sie erfordern keine umfangreichen und vielfältigen Trainingsdaten, um sich allgemein zu verallgemeinern, aber sie unterliegen inhärent bestimmten Arten von Fehlern (z. B. Ausbreitung von Unsicherheit aufgrund von Zuständen und Dynamik Lärm) nur aufgrund der Bedienung durch Simulation.

Zurück zu dem Punkt, den ich ansprechen möchte: Neuronale Netze sind zwar leistungsfähige Modelle, sie scheinen jedoch nicht in der Lage zu sein, kausale, kompositorische und komplexe Strukturen darzustellen. Und sie machen das wieder wett, indem sie viele Trainingsdaten benötigen.

Und zurück zu Ihrer Frage: Ich gehe davon aus, dass aufgrund der breiten induktiven Verzerrung und der Tatsache, dass neuronale Netze Kausalität / Komposition nicht modellieren, so viele Trainingsdaten benötigt werden. Regularisierung ist aufgrund der Art und Weise, wie sie verallgemeinert werden, keine gute Lösung. Eine bessere Lösung wäre es, ihre Vorurteile zu ändern, wie dies derzeit von Hinton mit Kapseln zur Modellierung der Ganz- / Teilegeometrie oder mit Interaktionsnetzwerken zur Modellierung von Beziehungen versucht wird .

— Benjamin Crouzier
quelle

2

Erstens gibt es viele Regularisierungsmethoden, die sowohl im Einsatz als auch in der aktiven Forschung für tiefes Lernen sind. Ihre Prämisse ist also nicht ganz sicher.

Bei den verwendeten Methoden ist der Gewichtsabfall eine direkte Implementierung einer L2-Strafe für die Gewichte über den Gradientenabstieg. Nehmen Sie den Gradienten der quadratischen Norm Ihrer Gewichte und fügen Sie bei jeder Iteration einen kleinen Schritt in diese Richtung hinzu. Aussetzer werden auch als eine Form der Regularisierung angesehen, die eine Art gemittelte Struktur auferlegt. Dies scheint so etwas wie eine L2-Strafe für ein Ensemble von Netzwerken mit gemeinsam genutzten Parametern zu bedeuten.

Vermutlich könnten Sie den Pegel dieser oder anderer Techniken erhöhen, um kleine Samples anzusprechen. Beachten Sie jedoch, dass Regularisierung das Auferlegen von Vorkenntnissen voraussetzt. Die L2-Strafe für die Gewichte impliziert beispielsweise einen Gaußschen Prior für die Gewichte. Wenn Sie den Grad der Regularisierung erhöhen, stellen Sie im Wesentlichen fest, dass Ihre Vorkenntnisse immer sicherer werden, und richten Sie Ihr Ergebnis auf diese Vorkenntnisse aus. Sie können es also tun und es wird weniger überanpassen, aber der voreingenommene Ausgang kann saugen. Offensichtlich ist die Lösung besseres Vorwissen. Für die Bilderkennung würde dies viel mehr strukturierte Prioritäten bezüglich der Statistik Ihres Problems bedeuten. Das Problem mit dieser Richtung ist, dass Sie eine Menge Fachwissen auferlegen, und die Vermeidung menschlicher Fachkenntnisse war einer der Gründe, warum Sie Deep Learning angewendet haben.

— Ein einfacher Algorithmus
quelle

+1 für die Erwähnung der Voreingenommenheit. Warum nicht das Ganze mit Voreingenommenheit und Varianz erklären? "Überanpassung" hat keine genaue mathematische Definition und impliziert eine nicht vorhandene Zweiteilung ("Überanpassung" / "Nicht-Überanpassung").

— Josh

2

Um meine Überlegungen zu verdeutlichen: Angenommen, wir verwenden ein großes Deep NNet, um unsere Daten zu modellieren, aber der Datensatz ist klein und könnte tatsächlich durch ein lineares Modell modelliert werden. Warum konvergieren dann die Netzwerkgewichte nicht so, dass ein Neuron die lineare Regression simuliert und alle anderen zu Nullen konvergieren? Warum hilft Regularisierung dabei nicht?

So können neuronale Netze trainiert werden. Wenn die richtige L1-Regularisierung verwendet wird, kann ein Großteil der Gewichte auf Null gesetzt werden, was dazu führt, dass sich neuronale Netze wie eine Verkettung von etwa 1 linearen Regressionsneuronen und vielen anderen Null-Neronen verhalten. Also ja - L1 / L2-Regularisierungen oder ähnliches können verwendet werden, um die Größe oder Repräsentationskraft des neuronalen Netzwerks einzuschränken.

Tatsächlich ist die Größe des Modells selbst eine Art Regularisierung. Wenn Sie das Modell groß machen, bedeutet dies, dass Sie Vorkenntnisse über das Problem haben. Die Probleme sind also sehr komplex, sodass ein Modell mit hoher Repräsentationskraft erforderlich ist. Wenn Sie das Modell klein machen, bedeutet dies, dass Sie wissen, dass das Problem einfach ist und das Modell nicht viel Kapazität benötigt.

Und dies bedeutet, dass die L2-Regularisierung Netzwerke nicht "spärlich" macht, wie Sie beschrieben haben, da die L2-Regularisierung das Wissen voraussetzt, dass der Beitrag jedes Neurons (Gewichts) klein, aber nicht null sein sollte. Das Netzwerk würde also jedes der Neuronen verwenden, anstatt nur einen kleinen Satz von Neuronen zu verwenden.

— Rosinalität
quelle

1

$L_2$ $L_1$

Ein wesentlicher Punkt hierbei ist, dass Regularisierung nicht immer hilfreich ist. Vielmehr ist das Regularisieren auf das, was wahrscheinlich wahr sein sollte, sehr hilfreich, aber das Regularisieren in die falsche Richtung ist eindeutig schlecht.

$L_2$

Nehmen wir nun an, unsere Daten sind Bilder von Katzen, die in tiefe neuronale Netze eingespeist werden. Wenn "spitze Ohren" in der Tat sehr hilfreich sind, um Katzen zu identifizieren, möchten wir vielleicht die Strafe reduzieren, um diese prädiktiver zu machen. Wir haben aber keine Ahnung, wo dies im Netzwerk vertreten sein wird! Wir können immer noch Strafen einführen, damit ein kleiner Teil des Systems nicht das gesamte Netzwerk dominiert. Abgesehen davon ist es jedoch schwierig, die Regularisierung auf sinnvolle Weise einzuführen.

Zusammenfassend ist es äußerst schwierig, frühere Informationen in ein System zu integrieren, das wir nicht verstehen.

— Cliff AB
quelle

Warum löst die Regularisierung nicht den Datenhunger von Deep Neural Nets?

(Ir) relevanter Fall: Polynom-Regression