Ich habe kürzlich den Kommentar von Yan LeCuns zu 1x1-Windungen gelesen :
In Convolutional Nets gibt es keine "vollständig verbundenen Schichten". Es gibt nur Faltungsschichten mit 1x1-Faltungskernen und einer vollständigen Verbindungstabelle.
Es ist eine zu selten verstandene Tatsache, dass ConvNets keine Eingabe mit fester Größe benötigen. Sie können sie auf Eingaben trainieren, die zufällig einen einzelnen Ausgabevektor (ohne räumliche Ausdehnung) erzeugen, und sie dann auf größere Bilder anwenden. Anstelle eines einzelnen Ausgabevektors erhalten Sie dann eine räumliche Karte der Ausgabevektoren. Jeder Vektor sieht Eingabefenster an verschiedenen Stellen der Eingabe. In diesem Szenario wirken die "vollständig verbundenen Schichten" tatsächlich als 1x1-Faltungen.
Ich würde gerne ein einfaches Beispiel dafür sehen.
Beispiel
Angenommen, Sie haben ein vollständig verbundenes Netzwerk. Es hat nur eine Eingabeebene und eine Ausgabeebene. Die Eingabeebene hat 3 Knoten, die Ausgabeebene hat 2 Knoten. Dieses Netzwerk hat Parameter. Nehmen wir an, Sie haben eine ReLU-Aktivierungsfunktion in der Ausgabeebene und in der Gewichtsmatrix, um sie noch konkreter zu machen
Das Netzwerk ist also mit .
Wie müsste die Faltungsschicht aussehen, um gleich zu sein? Was bedeutet LeCun mit "vollständiger Verbindungstabelle"?
Ich denke, um eine äquivalente CNN zu erhalten, müsste es genau die gleiche Anzahl von Parametern haben. Der MLP von oben hat Parameter.