Ich verstehe, dass Pretraining verwendet wird, um einige Probleme beim konventionellen Training zu vermeiden. Wenn ich Backpropagation mit beispielsweise einem Autoencoder verwende, weiß ich, dass ich auf Zeitprobleme stoßen werde, weil die Backpropagation langsam ist und ich auch in lokalen Optima stecken bleiben und bestimmte Funktionen nicht lernen kann.
Was ich nicht verstehe, ist, wie wir ein Netzwerk vorbilden und was wir speziell tun, um vorzubilden. Wenn wir zum Beispiel einen Stapel eingeschränkter Boltzmann-Maschinen erhalten, wie würden wir dieses Netzwerk vorab trainieren?