Die Ausgabedimension einer Faltung beim tiefen Lernen hängt von mehreren Faktoren ab
- die Größe des Filters (auch bekannt als Kernel)
- das Auffüllen (ob Sie Nullen um Ihr Bild hinzufügen oder nicht und wie viele)
- die Anzahl der Filter, die Sie verwenden
- der Schritt
Die einfachste Abhängigkeit besteht in der Anzahl der Filter N
. Sie erhalten die Anzahl der Feature-Maps, über die Ihre Ausgabe verfügt. Für den Eingang, der die RGB-Kanäle sein kann, dh 3, kann für den Ausgang diese Nummer frei gewählt werden.
Der nächste Faktor ist das Null-Auffüllen. Wenn Sie eine Filtergröße von (3,3) und eine "gültige" Auffüllung verwenden, dh NO-Nullen um das Bild hinzufügen, erhalten Sie eine Ausgabe der Dimension.
(100, 100, 3) -> (98, 98, N)
Weil Sie einen Schritt von 1 verwenden. Wenn Sie den Filter am Ende des Bildes in jede Richtung über das Bild bewegen, trifft der Filter nach 98 Schritten den Rand.
Wenn Sie jedoch die Auffüllung "SAME" verwenden, kompensieren Sie die Filtergröße - bei einer Filtergröße von (3,3), die einer Nullzeile um das Bild entspricht -, erhalten Sie Folgendes:
(100, 100, 3) -> (100, 100, N)
Mit einem Schritt von 2 verschieben Sie beispielsweise die Position des Filters um zwei Pixel. Deshalb bekommst du
(100, 100, 3) -> (50, 50, N)