Reichen frühes Stoppen und Abbrechen aus, um die überwiegende Mehrheit der tiefen neuronalen Netze in der Praxis zu regulieren?

Es gibt so viele Regularisierungstechniken, dass es nicht praktisch ist, alle Kombinationen auszuprobieren:

l1 / l2
max norm
aussteigen
frühes Anhalten
...

Es scheint, dass die meisten Menschen mit einer Kombination aus Ausfall und frühem Abbruch zufrieden sind: Gibt es Fälle, in denen die Verwendung anderer Techniken sinnvoll ist?

Wenn Sie beispielsweise ein spärliches Modell möchten, können Sie ein wenig l1-Regularisierung hinzufügen. Gibt es ansonsten starke Argumente für die Einstreuung anderer Regularisierungstechniken?

Ich kenne das No-Free-Lunch-Theorem, theoretisch müsste ich alle Kombinationen von Regularisierungstechniken ausprobieren, aber es lohnt sich nicht, es zu versuchen, wenn es fast nie zu einer signifikanten Leistungssteigerung führt.

neural-networks regularization dropout

— MiniQuark
quelle

Erinnern wir uns, dass das Hauptziel der Regularisierung darin besteht, die Überanpassung zu reduzieren.

Welche anderen Techniken werden derzeit verwendet, um die Überanpassung zu reduzieren:

1) Gewichtsverteilung - wie bei CNNs, wobei dieselben Filter auf das Bild angewendet werden.

2) Datenerweiterung - Erweitern vorhandener Daten und Generieren synthetischer Daten mit generativen Modellen

3) Große Menge an Trainingsdaten - dank ImageNet usw.

4) Pre-Training - Verwenden Sie beispielsweise ImageNet-Gewichte, bevor Sie den Klassifikator für den Caltech-Datensatz trainieren.

5) Die Verwendung von RelUs in neuronalen Netzen an sich fördert die Sparsamkeit, da sie keine Aktivierung ermöglichen. Verwenden Sie für komplexere Regionen im Feature-Space mehr RelUs. Deaktivieren Sie diese für einfache Regionen. Variieren Sie die Modellkomplexität grundsätzlich basierend auf der Komplexität des Problems.

Die Verwendung einer Reihe solcher Techniken zusätzlich zu Ausfall und frühem Anhalten scheint für die heute gelösten Probleme ausreichend zu sein. Bei neuartigen Problemen mit weniger Daten können jedoch andere Regularisierungstechniken hilfreich sein.

— Amitoz Dandiana
quelle

+1 Tolle Antwort, danke. Es scheint, dass es eine verschwommene Linie gibt, die Gewichtsinitialisierungstechniken (z. B. vor dem Training) und Regularisierung trennt. Einige Techniken können auch für verschiedene Zwecke nützlich sein, einschließlich der Regularisierung: Zum Beispiel soll die Batch-Norm das Problem der verschwindenden Gradienten beheben, verfügt jedoch auch über einige Regularisierungsfunktionen. Ich werde auf ein paar andere Antworten warten, bevor ich eine akzeptiere.

— MiniQuark