Intro Hintergrund
In einem neuronalen Faltungsnetz haben wir normalerweise eine allgemeine Struktur / einen Fluss, der so aussieht:
- Eingabebild (dh ein 2D-Vektor
x
)
(Die erste Faltungsschicht (Conv1) beginnt hier ...)
- Falten Sie eine Reihe von Filtern (
w1
) entlang des 2D-Bildes (dh führen Sie diez1 = w1*x + b1
Skalarproduktmultiplikationen durch), wobeiz1
3D undb1
Bias verwendet werden. - gilt eine Aktivierungsfunktion (zB relu) , um
z1
nichtlineare (za1 = ReLu(z1)
), wobeia1
ist 3D.
(Die 2. Faltungsebene (Conv2) beginnt hier ...)
- falten Sie eine Reihe von Filtern entlang der neu berechneten Aktivierungen (dh führen Sie die
z2 = w2*a1 + b2
Punktproduktmultiplikationen durch), wobeiz2
3D und undb2
Vorspannungen sind. - gilt eine Aktivierungsfunktion (zB relu) , um
z2
nichtlineare (za2 = ReLu(z2)
), wobeia2
ist 3D.
Die Frage
Die Definition des Begriffs "Merkmalskarte" scheint von Literatur zu Literatur zu variieren. Konkret:
- Für die erste Faltungsschicht, bedeutet „Feature Map“ entspricht den Eingangsvektor
x
, oder das Ausgangspunktproduktz1
oder die Ausgangsaktivierungena1
oder den „Prozess“ Umwandlungx
zua1
, oder etwas anderes? - In ähnlicher Weise für die zweite Faltungsschicht, bedeutet „Feature Map“ entspricht den Eingangsaktivierung
a1
oder das Ausgangspunktproduktz2
oder die Ausgangsaktivierunga2
oder den „Prozess“ Umwandlunga1
zua2
, oder etwas anderes?
Darüber hinaus ist es wahr , dass der Begriff „Merkmalskarte“ ist genau das gleiche wie „Aktivierungskarte“? (Oder meinen sie eigentlich zwei verschiedene Dinge?)
Zusätzliche Referenzen:
Schnipsel aus neuronalen Netzen und Deep Learning - Kapitel 6 :
* Die Nomenklatur wird hier lose verwendet. Insbesondere meine ich mit "Merkmalskarte" nicht die von der Faltungsschicht berechnete Funktion, sondern die Aktivierung der verborgenen Neuronen, die von der Schicht ausgegeben werden. Diese Art des milden Missbrauchs der Nomenklatur ist in der Forschungsliteratur weit verbreitet.
Auszüge aus der Visualisierung und dem Verständnis von Faltungsnetzwerken von Matt Zeiler :
In diesem Artikel stellen wir eine Visualisierungstechnik vor, die die Eingangsreize aufzeigt, die einzelne Feature-Maps auf einer beliebigen Ebene im Modell anregen. [...] Unser Ansatz liefert dagegen eine nicht parametrische Ansicht der Invarianz und zeigt, welche Muster aus dem Trainingssatz die Feature-Map aktivieren. [...] eine lokale Kontrastoperation, die die Antworten über Feature-Maps hinweg normalisiert. [...] Um eine bestimmte Convnet-Aktivierung zu untersuchen, setzen wir alle anderen Aktivierungen in der Ebene auf Null und übergeben die Feature-Maps als Eingabe an die angehängte Deconvnet-Ebene. [...] Das Convnet verwendet relu-Nichtlinearitäten, die die Feature-Maps korrigieren und so sicherstellen, dass die Feature-Maps immer positiv sind. [...] Das Convnet verwendet gelernte Filter, um die Feature-Maps aus der vorherigen Ebene zu falten. [...] Abb. 6, Bei diesen Visualisierungen handelt es sich um genaue Darstellungen des Eingabemusters, das die angegebene Feature-Map im Modell stimuliert. [...]
Anmerkungen: Führt auch die Begriffe "Merkmalskarte" und "korrigierte Merkmalskarte" in Abb. 1 ein.
Ausschnitte aus dem Stanford CS231n-Kapitel auf CNN :
[...] Eine gefährliche Falle, die bei dieser Visualisierung leicht erkannt werden kann, ist, dass einige Aktivierungskarten für viele verschiedene Eingaben alle Null sein können, was auf tote Filter hinweisen kann und ein Symptom für hohe Lernraten sein kann. [...] Typisch aussehende Aktivierungen auf der ersten CONV-Ebene (links) und der 5. CONV-Ebene (rechts) eines trainierten AlexNet, die ein Bild einer Katze betrachten. Jedes Feld zeigt eine Aktivierungskarte, die einem Filter entspricht. Beachten Sie, dass die Aktivierungen spärlich (die meisten Werte sind Null, in dieser schwarz dargestellten Visualisierung) und meist lokal sind.
Schnipsel aus A-Beginner's-Guide-To-Understanding-Convolutional-Neural-Networks
[...] Jede eindeutige Stelle auf dem Eingabevolumen erzeugt eine Nummer. Nachdem Sie den Filter über alle Orte geschoben haben, werden Sie feststellen, dass Sie nur noch ein 28 x 28 x 1-Array von Zahlen übrig haben, das wir Aktivierungskarte oder Feature-Karte nennen.
a1
,a2
usw.). In Conv2 würde icha1
die Eingabe-Aktivierungs-Map unda2
die Ausgabe-Aktivierungs-Map aufrufen . In Conv1 habe ichx
das Eingabebild unda1
die Ausgabeaktivierungskarte.