Frage zur Voreingenommenheit in Faltungsnetzwerken


11

Ich versuche herauszufinden, wie viele Gewichte und Vorurteile für CNN benötigt werden.

Angenommen, ich habe ein (3, 32, 32) -Bild und möchte einen (32, 5, 5) -Filter anwenden. Für jede Feature-Map habe ich 5x5 Gewichte, daher sollte ich 3 x (5x5) x 32 Parameter haben. Jetzt muss ich die Voreingenommenheit hinzufügen. Ich glaube, ich habe nur (3 x (5x5) + 1) x 32 Parameter. Ist die Vorspannung also für alle Farben (RGB) gleich?

Ist das richtig? Behalte ich für jedes Bild über seine Tiefe (in diesem Fall 3) die gleiche Vorspannung bei, während ich unterschiedliche Gewichte verwende? Warum das?

Antworten:


6

Die Vorspannung arbeitet pro virtuellem Neuron, sodass es keinen Wert hat, mehrere Vorspannungseingänge zu haben, wenn es nur einen Ausgang gibt - das würde bedeuten, nur die verschiedenen Vorspannungsgewichte zu einer einzigen Vorspannung zu addieren.

In den Feature-Maps, die die Ausgabe des ersten ausgeblendeten Layers darstellen, werden die Farben nicht mehr getrennt gehalten *. Tatsächlich ist jede Feature-Map ein "Kanal" in der nächsten Ebene, obwohl sie normalerweise separat visualisiert werden, wobei die Eingabe mit kombinierten Kanälen visualisiert wird. Eine andere Art, darüber nachzudenken, besteht darin, dass die separaten RGB-Kanäle im Originalbild 3 "Feature-Maps" in der Eingabe sind.

Es spielt keine Rolle, wie viele Kanäle oder Features sich in einer vorherigen Ebene befinden. Die Ausgabe für jede Feature-Map in der nächsten Ebene ist ein einzelner Wert in dieser Map. Ein Ausgabewert entspricht einem einzelnen virtuellen Neuron, das ein Vorspannungsgewicht benötigt.

In einem CNN werden, wie Sie in der Frage erläutern, an jedem Punkt in der Ausgabe-Feature-Map dieselben Gewichte (einschließlich des Bias-Gewichts) verwendet. Jede Feature-Map hat also sowohl ein eigenes Bias-Gewicht als auch ein eigenes previous_layer_num_features x kernel_width x kernel_heightVerbindungsgewicht.

Ja, Ihr Beispiel, das zu einer (3 x (5x5) + 1) x 32Gesamtgewichtung für die erste Schicht führt, ist für eine CNN korrekt, bei der die erste verborgene Schicht RGB-Eingaben in 32 separate Feature-Maps verarbeitet.


* Sie werden möglicherweise verwirrt, wenn Sie die Visualisierung der CNN- Gewichte sehen, die in die Farbkanäle unterteilt werden können, auf denen sie arbeiten.


Ich dachte, es gibt eine Verzerrung pro Filter ... haben wir unterschiedliche Definitionen von virtuellen Neuronen?
Charlie Parker

@CharlieParker In Bezug auf die Anzahl der Parameter entspricht eine Vorspannung pro Filter einer Vorspannung pro Neuron. Es gibt einige gleichwertige Möglichkeiten, die Architektur einer CNN-Feature-Map anzuzeigen. Eine wäre die "vollständig erweiterte" Schicht mit einer großen Anzahl von Neuronen, die alle dieselben Parameter teilen. Eine andere Möglichkeit wäre, sich vorzustellen, dass jeder Faltungsfilter die lokalen Verbindungen eines einzelnen Neurons beschreibt und die Schicht wiederholt dasselbe Neuron verwendet. Ich denke, wir haben wahrscheinlich die gleiche Definition eines Neurons, aber die Antwort beschreibt die Dinge nur aus einer Perspektive.
Neil Slater

Interessant, ich denke, Sie denken an jedes Neuron für jeden Filter. Ich habe aus irgendeinem Grund an jede Aktivierung für jedes Neuron gedacht, aber der Filter wird an vielen Stellen im Bild aktiviert, sodass ich natürlich viel mehr Neuronen im Sinn hatte.
Charlie Parker

1

Es ist die Eigenschaft von CNNs, dass sie gemeinsame Gewichte und Verzerrungen (gleiche Gewichte und Verzerrungen für alle versteckten Neuronen in einer Schicht) verwenden, um dasselbe Merkmal zu erkennen. Dies führt zu einem tieferen Lernen im Vergleich zu einfachen neuronalen Netzen. Sie können dies als Referenz vorlesen:

http://deeplearning.net/tutorial/lenet.html
http://neuralnetworksanddeeplearning.com/chap6.html#introducing_convolutional_networks


Ich stelle eine andere Frage. Meine Frage betrifft die Voreingenommenheit. Aus der Formel geht hervor, dass es für jede Feature-Map unterschiedliche Gewichte gibt, aber für alle Feature-Maps dieselbe Verzerrung verwendet wird.
Benutzer
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.