Angenommen, ich habe eine Konvektionsschicht, die einen -förmigen Tensor ausgibt wobei:( N, F, H, W)
- N ist die Chargengröße
- F ist die Anzahl der Faltungsfilter
- H,W sind die räumlichen Dimensionen
Angenommen, diese Ausgabe wird in eine Conv-Ebene mit 1x1-Filtern, Null-Polsterung und Schritt 1 eingespeist . Dann hat die Ausgabe dieser 1x1-Conv-Ebene die Form .F1(N,F1,H,W)
So können 1x1-Conv-Filter verwendet werden, um die Dimensionalität im Filterraum zu ändern. Wenn erhöhen wir die Dimensionalität, wenn , verringern wir die Dimensionalität in der Filterdimension.F1>FF1<F
In der Tat heißt es in dem Google Inception-Artikel " Going Deeper with Convolutions" (fett gedruckt, nicht von Originalautoren):
Ein großes Problem bei den obigen Modulen besteht zumindest in dieser naiven Form darin, dass sogar eine bescheidene Anzahl von 5 × 5-Windungen auf einer Faltungsschicht mit einer großen Anzahl von Filtern unerschwinglich teuer sein kann.
Dies führt zu der zweiten Idee der vorgeschlagenen Architektur: Maßreduzierungen und Projektionen sinnvoll dort anzuwenden, wo die Rechenanforderungen ansonsten zu stark ansteigen würden. Dies basiert auf dem Erfolg von Einbettungen: Selbst niedrig dimensionierte Einbettungen können viele Informationen über einen relativ großen Bildausschnitt enthalten. 1x1-Faltungen werden verwendet, um Verkleinerungen vor den teuren 3x3- und 5x5-Faltungen zu berechnen. Sie werden nicht nur als Reduktionen verwendet, sondern umfassen auch die Verwendung einer gleichgerichteten linearen Aktivierung, wodurch sie einen doppelten Zweck erfüllen.
In der Inception-Architektur verwenden wir daher die 1x1-Faltungsfilter, um die Dimensionalität in der Filterdimension zu reduzieren. Wie ich oben erklärt habe, können diese 1x1-Conv-Layer im Allgemeinen verwendet werden, um die Filterraumdimensionalität zu ändern (entweder zu erhöhen oder zu verringern). In der Inception-Architektur sehen wir, wie effektiv diese 1x1-Filter für die Dimensionsreduzierung sein können, explizit im Filterdimensionsraum nicht die räumliche Dimension Raum.
Vielleicht gibt es andere Interpretationen von 1x1-Conv-Filtern, aber ich bevorzuge diese Erklärung, insbesondere im Zusammenhang mit der Google Inception-Architektur.