Dropout entfernt eigentlich keine Neuronen, es ist nur so, dass diese bestimmten Neuronen für den angegebenen Datenstapel keine Rolle spielen (nicht aktiviert werden).
Beispiel - Angenommen, es gibt eine Straße mit 8 Fahrspuren - Wenn Lastwagen kommen, passieren sie die Fahrspuren 1,2,4,6,7, wenn Autos kommen, passieren sie die Fahrspuren 2,3,4,7,8 und wenn Motorräder kommen Sie fahren durch die Gassen 1,2,5,8. Unabhängig von einem Fahrzeug sind also alle Fahrspuren vorhanden, aber nur einige davon werden verwendet.
In ähnlicher Weise werden alle Neuronen im gesamten Modell verwendet, es wird jedoch nur eine Teilmenge von Neuronen für einen bestimmten Datenstapel aktiviert. Und das Modell wird später nicht gekürzt, die Modellkomplexität bleibt unverändert.
Warum Dropout verwenden?
Wie in Deep Learning-Buch von Ian Goodfellow gegeben,
Dropout ist effektiver als andere rechnerisch kostengünstige Standard-Regularisierer, z. B. Gewichtsabnahme, Einschränkung der Filternorm und Regularisierung spärlicher Aktivitäten.
Er sagt auch-
Ein Vorteil von Dropout ist, dass es sehr rechenintensiv ist.
Ein weiterer wesentlicher Vorteil des Abbrechens besteht darin, dass der Typ des Modells oder des Trainingsverfahrens, das verwendet werden kann, nicht wesentlich eingeschränkt wird. Es funktioniert gut mit fast jedem Modell, das eine verteilte Darstellung verwendet und mit stochastischer Gradientenabnahme trainiert werden kann. Dies umfasst vorwärtsgerichtete neuronale Netze, Wahrscheinlichkeitsmodelle wie eingeschränkte Boltzmann-Maschinen (Srivastava et al., 2014) und wiederkehrende neuronale Netze (Bayer und Osendorfer, 2014; Pascanu et al., 2014a).
Dieses Buch sagt-
Die Kernidee ist, dass das Einbringen von Rauschen in die Ausgabewerte einer Schicht zufällige Muster auflösen kann, die nicht signifikant sind. Wenn kein Rauschen vorhanden ist, beginnt das Netzwerk, diese zu speichern.