Die meisten Netzwerke, die ich gesehen habe, haben eine oder zwei dichte Schichten vor der endgültigen Softmax-Schicht.
- Gibt es eine prinzipielle Möglichkeit, die Anzahl und Größe der dichten Schichten zu wählen?
- Sind zwei dichte Schichten bei gleicher Anzahl von Parametern repräsentativer als eine?
- Sollte Dropout vor jeder dichten Schicht oder nur einmal angewendet werden?