Bedeutet Batch-Normalisierung, dass Sigmoide besser funktionieren als ReLUs?

9

Batch-Normalisierung und ReLUs sind beide Lösungen für das Problem des verschwindenden Gradienten. Wenn wir die Chargennormalisierung verwenden, sollten wir dann Sigmoide verwenden? Oder gibt es Funktionen von ReLUs, die sie auch bei Verwendung von Batchnorm lohnenswert machen?

Ich nehme an, dass die in Batchnorm durchgeführte Normalisierung keine negativen Aktivierungen aussendet. Bedeutet das, dass Batchnorm das Problem "Dead ReLU" löst?

Aber die Kontinuität von Tanh und Logistik bleibt attraktiv. Wenn ich Batchnorm verwende, funktioniert Tanh besser als ReLU?

Ich bin sicher, dass die Antwort davon abhängt . Was hat in Ihrer Erfahrung funktioniert und was sind die herausragenden Merkmale Ihrer Anwendung?

deep-learning batch-normalization

— generic_user
quelle

Selbst wenn das Papier vorschlägt, BatchNorm vor der Aktivierung zu verwenden, wurde in der Praxis festgestellt, dass bessere Lösungen erzielt werden, wenn BN danach angewendet wird. Wenn ich etwas nicht übersehe, das bedeuten sollte, dass BN im letzteren Fall keinen Einfluss auf die Aktivierung hat. Aber es ist natürlich eine offene Frage, ob BN besser funktionieren würde, wenn es vor und mit einer anderen Aktivierung als ReLU angewendet wird. Meiner Meinung nach nein. Weil ReLU noch andere Vorteile hat, wie zum Beispiel eine einfachere Ableitung. Ich bin aber auch neugierig. Vielleicht hat jemand Erfahrungen auf diesem Gebiet gemacht.

— oezguensi

1

Das Grundkonzept der Batch-Normalisierung lautet: (Auszug aus einem Medium-Artikel) -

Wir normalisieren unsere Eingabeebene, indem wir die Aktivierungen anpassen und skalieren. Wenn wir beispielsweise Funktionen von 0 bis 1 und einige von 1 bis 1000 haben, sollten wir sie normalisieren, um das Lernen zu beschleunigen. Wenn die Eingabeebene davon profitiert, warum nicht dasselbe auch für die Werte in den verborgenen Ebenen tun, die sich ständig ändern und die Trainingsgeschwindigkeit um das Zehnfache oder mehr verbessern.

Lesen Sie den Artikel hier.

$frac{1}/{(1+1/e)}$

— Verrückter
quelle

0

madman hat Ihre Frage zur Chargennormalisierung richtig beantwortet und ich möchte Ihren zweiten Teil beantworten, dass kontinuierliche Funktionen ansprechend erscheinen mögen, aber relu besser ist als alle anderen, und diese Aussage ist nicht von meiner Seite MR. Hinton zitierte es: "Wir waren dumme Leute, die Sigmoid als Aktivierungsfunktion verwendeten, und es dauerte 30 Jahre, bis diese Erkenntnis eintrat, dass es Ihr Neuron niemals sättigen lässt, ohne seine Form zu verstehen. Es ist immer gesättigt, also ist es abgeleitet und." er nannte sich selbst und alle anderen verblüfften Menschen ".Wählen Sie also eine Aktivierungsfunktion, nur weil sie kontinuierlich ist und nicht darauf achtet, wie sie sich auf Ihr Neuron auswirkt."

Hinweis: Wenn Sie neuronale Netze studieren, würde ich Ihnen raten, neuronale Netze als große und tiefe zusammengesetzte Funktionen zu betrachten, um zu verstehen, was funktioniert und warum es funktioniert. Sie müssen verstehen, wie ein neuronales Netz eine Vielzahl von Daten in einer höheren Dimension erzeugt "Diese Daten, bei denen die Güte der Mannigfaltigkeit von Ihrer Wahl der Funktionen abhängt und davon, wie eine Funktion die Ausgabe der anderen Funktionen transformiert, wenn sie als Eingabe übergeben wird.

— khwaja wisal
quelle