Auswahl der Regularisierungsmethode in neuronalen Netzen

9

Beim Training neuronaler Netze gibt es mindestens vier Möglichkeiten, das Netz zu regulieren:

L1 Regularisierung

L2 Regularisierung

Aussteigen

Chargennormalisierung

Dazu kommen natürlich auch andere Dinge wie Gewichtsverteilung und Reduzierung der Anzahl der Verbindungen, die im engeren Sinne möglicherweise keine Regularisierung darstellen.

Aber wie würde man wählen, welche dieser Regularisierungsmethoden verwendet werden soll? Gibt es einen prinzipielleren Weg als "einfach alles ausprobieren und sehen, was funktioniert"?

neural-network regularization

— Thomas Johnson
quelle

3

Haben neuronale Netze Prinzipien? Das Prinzip für Black-Box-Methoden ist, alles auszuprobieren und zu sehen, was funktioniert

— Darrin Thomas

Und das ist ziemlich traurig, findest du nicht?

— Alex

6

Es gibt keine starken, gut dokumentierten Prinzipien, die Ihnen bei der Entscheidung zwischen Regularisierungstypen in neuronalen Netzen helfen. Sie können sogar Regularisierungstechniken kombinieren, Sie müssen nicht nur eine auswählen.

Ein praktikabler Ansatz kann auf Erfahrungen basieren und anhand der Literatur und der Ergebnisse anderer Personen ermittelt werden, was in verschiedenen Problembereichen zu guten Ergebnissen geführt hat. Vor diesem Hintergrund hat sich Dropout bei einer Vielzahl von Problemen als sehr erfolgreich erwiesen, und Sie können es wahrscheinlich als gute erste Wahl betrachten, fast unabhängig davon, was Sie versuchen.

Manchmal kann es auch hilfreich sein, nur eine Option auszuwählen, mit der Sie vertraut sind. Wenn Sie mit Techniken arbeiten, die Sie verstehen und mit denen Sie Erfahrung haben, erzielen Sie möglicherweise bessere Ergebnisse, als wenn Sie eine ganze Reihe verschiedener Optionen ausprobieren, bei denen Sie sich nicht sicher sind, welche Größenordnung Sie für einen Parameter versuchen sollen . Ein Hauptproblem besteht darin, dass die Techniken mit anderen Netzwerkparametern zusammenspielen können. Beispielsweise möchten Sie möglicherweise die Größe von Ebenen mit Ausfall je nach Ausfallprozentsatz erhöhen.

Schließlich spielt es möglicherweise keine große Rolle, welche Regularisierungstechniken Sie verwenden, nur dass Sie Ihr Problem und Modell gut genug verstehen, um zu erkennen, wann es überpasst, und eine stärkere Regularisierung vertragen könnten. Oder umgekehrt, erkennen Sie, wann es unteranpasst und dass Sie die Regularisierung reduzieren sollten.

— Neil Slater
quelle

3

Methode der Regularisierung

Für die folgenden 4 Techniken sind L1-Regularisierung und L2-Regularisierung natürlich eine Regularisierungsmethode. Sie schrumpfen das Gewicht. L1 würde sich darauf konzentrieren, eine kleinere Gewichtsmenge zu schrumpfen, wenn die Gewichte eine höhere Bedeutung haben.

Ein Ausfall verhindert eine Überanpassung, indem Neuronen vorübergehend ausfallen. Schließlich werden alle Gewichte als Durchschnitt berechnet, damit das Gewicht für ein bestimmtes Neuron nicht zu groß wird, und daher handelt es sich um eine Methode zur Regularisierung.

Die Chargennormalisierung sollte keine Methode zur Regularisierung sein, da der Hauptzweck darin besteht, das Training zu beschleunigen, indem eine Charge ausgewählt und das Gewicht nahe 0 verteilt wird, nicht zu groß, nicht zu klein.

Wählen Sie es

Für mich ist Mini-Batch ein Muss, da es den Prozess beschleunigen und die Leistung des Netzwerks jedes Mal verbessern kann.

L1 und L2 sind beide ähnlich und ich würde L1 in kleinen Netzwerken bevorzugen.

Im Idealfall sollte ein Ausfall auftreten, wenn ein großes Variationsproblem oder eine Überanpassung vorliegt.

Last but not least stimme ich Neil Slater zu, dass es von der Situation abhängt und es niemals eine optimale Lösung geben wird.

Ich empfehle Ihnen, dies für weitere Informationen zu lesen. Dies ist ein sehr gutes Material. http://neuralnetworksanddeeplearning.com/chap3.html

— BenjiBB
quelle

-1

Betrachten Sie diese algorithmischen Optionen als zusätzliche Hyperparameter und optimieren Sie sie auf die gleiche Weise wie für Ihre anderen Hyperparameter. In der Regel sind hierfür jedoch mehr Daten erforderlich.

— Alex
quelle

2

Hallo Alex, Willkommen bei DS.SE. Dies ist eine Q & A-Site, auf der die umfangreichsten Antworten per Abstimmung nach oben gelangen. Jemand hat Sie abgelehnt, vielleicht weil Ihre Antwort ziemlich kurz ist und die Lösung im Allgemeinen erklärt (z. B.) nicht die Details von Hyperparametern erklärt, ein Begriff, der vom Originalplakat nicht verwendet wurde.

— Marcus D