Es gibt einige Variationen beim Normalisieren der Bilder, aber die meisten scheinen diese beiden Methoden zu verwenden:
- Subtrahiere den über alle Bilder berechneten Mittelwert pro Kanal (zB VGG_ILSVRC_16_layers )
- Über alle Bilder berechnete Subtraktion nach Pixel / Kanal (z. B. CNN_S , siehe auch Caffes Referenznetzwerk )
Die natürliche Herangehensweise würde meines Erachtens jedes Bild normalisieren. Ein Bild, das am helllichten Tag aufgenommen wurde, löst mehr Neuronen aus als ein Nachtbild. Es gibt uns möglicherweise Auskunft über die Zeit, in der wir uns normalerweise um interessantere Merkmale an den Rändern usw. kümmern.
Pierre Sermanet bezieht sich in 3.3.3 auf die lokale Kontrastnormalisierung , die bildbasiert wäre, aber ich bin in keinem der Beispiele / Tutorials darauf gestoßen, die ich gesehen habe. Ich habe auch eine interessante Quora-Frage und den Beitrag von Xiu-Shen Wei gesehen, aber sie scheinen die beiden oben genannten Ansätze nicht zu unterstützen.
Was genau vermisse ich? Handelt es sich um ein Problem mit der Farbnormalisierung oder gibt es ein Papier, in dem erklärt wird, warum so viele diesen Ansatz verwenden?