Ich versuche also, Bilder von Menschen mit Faltungsnetzen zu trainieren. Ich habe die Papiere ( Paper1 und Paper2 ) und diesen Stackoverflow-Link gelesen , bin mir jedoch nicht sicher, ob ich die Struktur der Netze verstehe (in den Papieren ist dies nicht genau definiert).
Fragen:
Ich kann meine Eingabe gefolgt von einer Rauschebene gefolgt von einer Konvektionsebene, gefolgt von einer Poolebene - danach - dekoole ich, bevor ich meine Ausgabe gebe (was dasselbe ist wie mein Eingabebild)?
Angenommen, ich habe mehrere (135.240) Bilder. Wenn ich 32 (12,21) Kernel verwende, gefolgt von (2,2) Pooling, erhalte ich 32 (62, 110) Feature-Maps. Muss ich jetzt den Pool aufheben, um 32 (124, 220) Feature-Maps zu erhalten und sie dann zu reduzieren? bevor ich meine (135,240) Ausgabeebene gebe?
Wenn ich mehrere solcher Conv-Pool-Layer habe, sollte ich sie nacheinander trainieren - wie bei gestapelten denoisierten Autoencodern? Oder - kann ich so etwas wie Input-Conv-Pool-Conv-Pool-Conv-Pool-Output haben (Output ist dasselbe wie Input)? Wie soll in diesem Fall das Pooling, Depooling verwaltet werden? Soll ich den Pool nur in der letzten Poolebene vor der Ausgabe entfernen? Und noch einmal - was sollte der Größenänderungsfaktor für diese Aufhebung des Pools sein? Ist die Absicht, die Feature-Maps wieder an die Form der Eingabe anzupassen?
Sollte ich nach jeder Conv-Pool-Depool-Schicht Rauschschichten einfügen?
Und dann bei der Feinabstimmung - soll ich nur die Entpoolungsschichten entfernen und den Rest gleich lassen. Oder sollte ich sowohl die Rauschschichten als auch die De-Pooling-Schichten entfernen?
Kann mir jemand auf eine URL / ein Dokument verweisen, in dem die Architektur eines solchen gestapelten Faltungs-Auto-Encoders für das Pre-Training von Bildern detailliert beschrieben ist?