Dies ist eine sehr gute Frage, und Sie müssen dies verstehen, um mehr Verständnis für tiefes Lernen zu erlangen.
Grundsätzlich haben Sie Rohbilder, lassen Sie uns ein Bild aufnehmen. Dieses Bild hat 3 Kanäle und in jedem Kanal liegen die Pixelwerte zwischen 0 und 255.
Unser Ziel hier ist es, den Wertebereich für alle Pixel in den drei Kanälen auf einen sehr kleinen Bereich zu beschränken. Hier kommt die Vorverarbeitung ins Spiel. Aber denken Sie nicht, dass die Vorverarbeitung nur die mittleren und Standardtechniken umfasst, es gibt viele andere wie PCA, Bleaching usw.
1) Verwenden des Mittelwerts: Durch Berechnen des Mittelwerts von beispielsweise erhalten Sie mit den ersten roten Pixelwerten über alle Trainingsbilder den durchschnittlichen roten Farbwert, der über alle Trainingsbilder an der ersten Position vorhanden ist. Ebenso finden Sie dies für alle roten Kanalwerte, grüne Kanalwerte. Schließlich erhalten Sie ein durchschnittliches Bild von allen Trainingsbildern.
Wenn Sie nun dieses mittlere Bild von allen Trainingsbildern subtrahieren, transformieren Sie offensichtlich die Pixelwerte der Bilder. Das Bild ist für das menschliche Auge nicht mehr interpretierbar. Die Pixelwerte liegen nun im Bereich von positiv bis negativ, wobei der Mittelwert bei Null liegt .
2) Wenn Sie diese nun erneut durch die Standardabweichung teilen, wird der Pixelwertbereich zuvor im Wesentlichen auf einen kleinen Bereich reduziert.
ABER WARUM ALLES? Ich werde aus meiner Erfahrung sagen, dass diese Vorverarbeitung der Bilder und die anschließende Übergabe dieser transformierten Bilder an das Klassifikatormodell schneller und besser ablaufen. Deshalb.
Wenn Sie sich mit tiefem Lernen beschäftigen, sollten Sie sich mit der Batch-Normalisierung befassen, nachdem Sie dieses Normalisierungskonzept verstanden haben