Entschuldigt sich für den Missbrauch von Fachbegriffen. Ich arbeite an einem Projekt zur semantischen Segmentierung über Faltungs-Neuronale Netze (CNNs). Beim Versuch, eine Architektur vom Typ Encoder-Decoder zu implementieren, hat die Ausgabe dieselbe Größe wie die Eingabe.
Wie gestalten Sie die Etiketten? Welche Verlustfunktion sollte man anwenden? Besonders in der Situation eines starken Klassenungleichgewichts (aber das Verhältnis zwischen den Klassen ist von Bild zu Bild variabel).
Das Problem betrifft zwei Klassen (Objekte von Interesse und Hintergrund). Ich verwende Keras mit Tensorflow-Backend.
Bisher werde ich die erwarteten Ausgaben so gestalten, dass sie die gleichen Abmessungen wie die Eingabebilder haben, und die pixelweise Beschriftung anwenden. Die letzte Ebene des Modells verfügt entweder über eine Softmax-Aktivierung (für 2 Klassen) oder eine Sigmoid-Aktivierung (um die Wahrscheinlichkeit auszudrücken, dass die Pixel zur Objektklasse gehören). Ich habe Probleme beim Entwerfen einer geeigneten Zielfunktion für eine solche Aufgabe vom Typ:
function(y_pred,y_true)
,
in Übereinstimmung mit Keras .
Bitte versuchen Sie, die Abmessungen der beteiligten Tensoren (Eingabe / Ausgabe des Modells) genau zu bestimmen. Alle Gedanken und Vorschläge werden sehr geschätzt. Vielen Dank !