Gibt es Studien, die Dropout im Vergleich zu anderen Regularisierungen untersuchen?


9

Gibt es Veröffentlichungen, die Unterschiede in den Regularisierungsmethoden für neuronale Netze zeigen, vorzugsweise in verschiedenen Domänen (oder zumindest in verschiedenen Datensätzen)?

Ich frage, weil ich derzeit das Gefühl habe, dass die meisten Leute nur Aussetzer zur Regularisierung in der Bildverarbeitung verwenden. Ich möchte prüfen, ob es einen Grund gibt (nicht), verschiedene Arten der Regularisierung zu verwenden.

Antworten:


3

Zwei Punkte:

  1. Dropout wird normalerweise auch mit Ensembles neuronaler Netze verglichen. Es scheint, dass es einige der Leistungsvorteile des Trainings und der Mittelung mehrerer neuronaler Netze hat.
  2. Dropout ist einfacher zu kalibrieren als Regularisierung. Es gibt nur einen Hyperparameter, nämlich die Abbrecherquote, und die Leute verwenden während des Trainings häufig 0,5 (und dann natürlich 1,0 bei der Bewertung :)), siehe z . B. dieses TensorFlow-Beispiel .

Jedenfalls bin ich ein wenig skeptisch gegenüber empirischen Studien über neuronale Netze. Es gibt einfach zu viele Hyperparameter, um sie fein abzustimmen, von der Topologie des Netzwerks über das Verfahren zur Optimierung des Gradientenabfalls bis hin zu Aktivierungsfunktionen und was auch immer Sie testen, wie die Regularisierung. Dann ist das Ganze stochastisch und normalerweise sind die Leistungssteigerungen so gering, dass Sie kaum statistische Tests auf Unterschiede durchführen können. Viele Autoren machen sich nicht einmal die Mühe, statistische Tests durchzuführen. Sie geben nur eine durchschnittliche Kreuzvalidierung an und erklären, dass jedes Modell mit dem höchsten Dezimalpunktgewinn der Gewinner ist.

Möglicherweise finden Sie eine Studie zur Förderung von Schulabbrechern, der nur eine andere Studie zur Förderung der Regularisierung widerspricht.

Ich denke, es läuft alles auf ästhetische Vorlieben hinaus. Dropout IMHO klingt biologisch plausibler als Regularisierung. Es scheint auch einfacher zu kalibrieren. Ich persönlich bevorzuge es, wenn ich ein Framework wie TensorFlow verwende. Wenn wir unser eigenes neuronales Netzwerk verwenden müssen, was wir häufig tun, werden wir die Regularisierung verwenden, da die Implementierung einfacher war.


0

Bestimmt. Das Papier vom Schöpfer selbst, Geoffrey Hinton. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf lesen Sie es. Aber ich ermutige Sie, den Unterschied zu erkennen, indem Sie ihn selbst implementieren.


2
Das Papier vergleicht nicht explizit zwischen verschiedenen Regularisierungsansätzen, außer indem gezeigt wird, dass Dropout die Ergebnisse auf dem neuesten Stand der Technik verbessert (frühere Ergebnisse verwendeten höchstwahrscheinlich einige andere Formen der Regularisierung, sind jedoch nicht aufgeführt). Es werden auch Maxnorm-Gewichtsbeschränkungen als wirksamer zusätzlicher Regularisierer zur Erhöhung des Aussetzers erwähnt.
Neil Slater
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.