Sehr gute Frage, da es noch keine genaue Antwort auf diese Frage gibt. Dies ist ein aktives Forschungsgebiet.
Letztendlich hängt die Architektur Ihres Netzwerks von der Dimensionalität Ihrer Daten ab. Da neuronale Netze universelle Approximatoren sind, kann Ihr Netz, solange es groß genug ist, an Ihre Daten angepasst werden.
Der einzige Weg, um wirklich zu wissen, welche Architektur am besten funktioniert, besteht darin, alle zu testen und dann die beste auszuwählen. Aber natürlich ist es bei neuronalen Netzen ziemlich schwierig, da jedes Modell einige Zeit zum Trainieren benötigt. Was manche Leute tun, ist, zuerst ein Modell zu trainieren, das absichtlich "zu groß" ist, und es dann zu beschneiden, indem Gewichte entfernt werden, die nicht viel zum Netzwerk beitragen.
Was ist, wenn mein Netzwerk "zu groß" ist?
Wenn Ihr Netzwerk zu groß ist, kann es zu Überanpassungen oder Konvergenzproblemen kommen. Intuitiv passiert, dass Ihr Netzwerk versucht, Ihre Daten komplizierter zu erklären, als es sollte. Es ist, als würde man versuchen, eine Frage zu beantworten, die mit einem Satz und einem 10-seitigen Aufsatz beantwortet werden könnte. Es könnte schwierig sein, eine so lange Antwort zu strukturieren, und es könnte eine Menge unnötiger Fakten geben ( siehe diese Frage ).
Was ist, wenn mein Netzwerk "zu klein" ist?
Auf der anderen Seite, wenn Ihr Netzwerk zu klein ist, passt es nicht zu Ihren Daten und daher auch nicht. Es wäre, als würde man mit einem Satz antworten, wenn man einen 10-seitigen Aufsatz hätte schreiben sollen. So gut Ihre Antwort auch sein mag, Sie werden einige der relevanten Fakten vermissen.
Schätzung der Größe des Netzwerks
Wenn Sie die Dimensionalität Ihrer Daten kennen, können Sie feststellen, ob Ihr Netzwerk groß genug ist. Um die Dimensionalität Ihrer Daten abzuschätzen, können Sie versuchen, deren Rang zu berechnen. Dies ist eine Kernidee bei dem Versuch, die Größe von Netzwerken einzuschätzen.
Es ist jedoch nicht so einfach. Wenn Ihr Netzwerk 64-dimensional sein muss, erstellen Sie eine einzelne ausgeblendete Ebene der Größe 64 oder zwei Ebenen der Größe 8? An dieser Stelle möchte ich Ihnen eine Vorstellung davon geben, was in beiden Fällen passieren würde.
Tiefer gehen
Um tief zu gehen, müssen mehr versteckte Ebenen hinzugefügt werden. Es ermöglicht dem Netzwerk, komplexere Funktionen zu berechnen. In Faltungs-Neuronalen Netzen wurde beispielsweise häufig gezeigt, dass die ersten Schichten Merkmale auf "niedriger Ebene" wie Kanten darstellen und die letzten Schichten Merkmale auf "hoher Ebene" wie Gesichter, Körperteile usw. darstellen.
Sie müssen in der Regel tief gehen, wenn Ihre Daten sehr unstrukturiert sind (wie ein Bild) und eine ganze Menge verarbeitet werden müssen, bevor nützliche Informationen daraus extrahiert werden können.
Weiter gehen
Weiter zu gehen bedeutet, komplexere Features zu erstellen. Weiter zu gehen bedeutet einfach, mehr dieser Features zu erstellen. Es kann sein, dass Ihr Problem durch sehr einfache Funktionen erklärt werden kann, aber es muss viele davon geben. Normalerweise werden die Ebenen zum Ende des Netzwerks hin immer schmaler, weil komplexe Features mehr Informationen enthalten als einfache, und Sie daher nicht so viele benötigen.