Ich habe an anderer Stelle gelesen, dass die Auswahl der Aktivierungsfunktion für versteckte Schichten in einem NN auf den eigenen Bedürfnissen basieren sollte. Wenn Sie also Werte im Bereich von -1 bis 1 benötigen , verwenden Sie tanh und Sigmoid für den Bereich von 0 bis 1.
Meine Frage ist, woher weiß man, was man braucht ? Basiert es auf dem Bereich der Eingabeebene, verwenden Sie beispielsweise die Funktion, die den gesamten Wertebereich der Eingabeebene umfassen kann, oder spiegeln Sie irgendwie die Verteilung der Eingabeebene wider (Gaußsche Funktion)? Oder ist das Bedürfnis problem- / domänenspezifisch und die eigene Erfahrung / Urteilskraft erforderlich, um diese Wahl zu treffen? Oder ist es einfach "das zu verwenden, was den besten quervalidierten minimalen Trainingsfehler ergibt?"
1 + (1 / exp(-sum))
. Das Erfordernis sehr schwer verständlich zu machen, ohne beide in jedem Datensatz auszuprobieren. Der Bedarf, wie Sie ihn hier beschreiben, hängt von der tatsächlich erlernten Beziehung ab, dh ein Binärdatensatz lernt bei unterschiedlichen Aktivierungen schneller oder überhaupt nicht.