Das Hauptproblem bei neuronalen Netzen besteht darin, eine Überanpassung zu verhindern. Die Bayes'sche Regularisierung (die die Größe der Gewichte einschränkt) ist ein Ansatz, die strukturelle Stabilisierung (dh die Beschränkung der Anzahl versteckter Knoten und / oder Gewichte ist ein anderer). Keiner der beiden Ansätze ist ein Allheilmittel, und im Allgemeinen ist eine Kombination aus Regularisierung und struktureller Stabilisierung besser (was bedeutet, dass Sie erneut eine Kreuzvalidierung benötigen, um die Netzwerkarchitektur auszuwählen - die Verwendung der Bayes'schen Beweise hierfür ist eine schlechte Idee, da die Beweise infolgedessen voreingenommen sind seiner Verwendung bei der Abstimmung der Regularisierungsparameter und unzuverlässig, wenn eine Modellfehlspezifikation vorliegt). Was am besten funktioniert, ist im Wesentlichen problemabhängig. Der beste Weg, dies herauszufinden, besteht darin, beides zu versuchen und zu sehen (z. B. Kreuzvalidierung, um die Leistung unvoreingenommen abzuschätzen).
Außerdem muss die Regularisierung nicht Bayesianisch sein. Sie können stattdessen mithilfe der Kreuzvalidierung auswählen, wie stark das Netzwerk reguliert werden soll. Eines der Probleme mit Bayes'schen Methoden besteht darin, dass sie schlechte Ergebnisse liefern können, wenn das Modell falsch spezifiziert ist. In diesem Fall können kreuzvalidierungsbasierte Regularisierungsmethoden robuster sein.
Ein weiterer wichtiger Punkt ist, dass nicht alle Bayes'schen neuronalen Netzwerkformulierungen gleich sind. Das Evidence-Framework von MacKay funktioniert bei Klassifizierungsproblemen in der Regel nicht gut, da die verwendete Laplace-Näherung bei verzerrten posterioren Verteilungen für die Gewichte nicht sehr gut funktioniert. Der MCMC-Ansatz von Radford Neal funktioniert wahrscheinlich besser für diese Aufgaben, ist jedoch rechenintensiv und die Bewertung der Konvergenz usw. ist nicht so einfach.
Neuronale Netzwerkmodelle sind jedoch ziemlich umständlich, und in der Praxis ist es einfacher, eine gute Generalisierungsleistung von Kernelmethoden oder Gaußschen Prozessen zu erzielen. Daher würde ich sie stattdessen für die meisten Aufgaben verwenden, insbesondere wenn relativ wenig Trainingsdaten vorhanden sind.
Ich habe kürzlich eine sehr umfangreiche empirische Studie dazu durchgeführt, aber ich muss eine Zeitschrift finden, die empirische Studien akzeptiert, die für Praktiker von Interesse sind, aber nur sehr wenig neue Forschungsinhalte enthalten.