Beim Lesen der semantischen Segmentierungspapiere sowie der entsprechenden Implementierungen stellte ich fest, dass einige Ansätze Softmax verwenden, während andere Sigmoid für die Beschriftung auf Pixelebene verwenden.
In Bezug auf U-Net-Papier ist die Ausgabe beispielsweise eine Feature-Map mit zwei Kanälen.
Ich habe einige Implementierungen mit Softmax über diese beiden Kanalausgänge gesehen. Ich bin nicht sicher, ob mein folgendes Verständnis richtig ist oder nicht?
Zur Veranschaulichung gehört der maskierte Teil zur Klasse 1 und der andere Teil zur Klasse 2. Ich gehe nur von zwei Klassen aus: maskiert oder nicht maskiert.
Ich verwende xy
, um die Ausgabekarte mit Form darzustellen (1, image_row, image_col, 2). Dann xy[1,0,0,0]
wird die Wahrscheinlichkeit von Pixeln bei (0,0) dargestellt, die zu Klasse 1 gehören, während xy[1,0,0,1]
die Wahrscheinlichkeit von Pixeln bei (0,0) dargestellt wird, die zu Klasse 2 gehören. Mit anderen Worten,xy[1,row,col,0]+xy[1,row,col,1]=1
Ist mein Verständnis richtig?