Backprop-Netzwerke, die vollständig miteinander verbunden sind (mindestens Schicht für Schicht mit mehr als 2 verborgenen Schichten), sind universelle Lerner. Leider lernen sie oft nur langsam und neigen zu Überanpassung oder zu unangenehmen Verallgemeinerungen.
Beim Herumalbern mit diesen Netzwerken habe ich beobachtet, dass das Beschneiden einiger Kanten (so dass deren Gewicht Null ist und sich nicht ändern lässt) dazu führt, dass die Netzwerke schneller lernen und sich besser verallgemeinern. Gibt es einen Grund dafür? Liegt es nur an einer Verringerung der Dimensionalität des Suchraums für Gewichte, oder gibt es einen subtileren Grund?
Ist die bessere Verallgemeinerung auch ein Artefakt der "natürlichen" Probleme, mit denen ich mich befasse?