Ich stehe vor dem Problem, Bilder mit unterschiedlichen Dimensionen als Eingaben in eine Segmentierungsaufgabe zu haben. Beachten Sie, dass die Bilder nicht einmal das gleiche Seitenverhältnis haben.
Ein allgemeiner Ansatz, den ich im Allgemeinen beim Deep Learning gefunden habe, ist das Zuschneiden der Bilder, wie dies auch hier vorgeschlagen wird . In meinem Fall kann ich das Bild jedoch nicht zuschneiden und seine Mitte oder ähnliches beibehalten, da ich bei der Segmentierung möchte, dass die Ausgabe die gleichen Abmessungen wie die Eingabe hat.
In diesem Dokument wird vorgeschlagen, dass bei einer Segmentierungsaufgabe dasselbe Bild mehrmals in einem anderen Maßstab in das Netzwerk eingespeist und dann die Ergebnisse aggregiert werden können. Wenn ich diesen Ansatz richtig verstehe, würde er nur funktionieren, wenn alle Eingabebilder das gleiche Seitenverhältnis haben. Bitte korrigieren Sie mich, wenn ich falsch liege.
Eine andere Alternative wäre, jedes Bild auf feste Abmessungen zu ändern. Ich denke, dies wurde auch durch die Antwort auf diese Frage vorgeschlagen. Es ist jedoch nicht festgelegt, auf welche Weise die Größe von Bildern geändert wird.
Ich habe überlegt, die maximale Breite und Höhe des Datensatzes zu verwenden und alle Bilder auf diese feste Größe zu ändern, um Informationsverlust zu vermeiden. Ich glaube jedoch, dass unser Netzwerk möglicherweise Probleme mit verzerrten Bildern hat, da die Kanten in einem Bild möglicherweise nicht klar sind. Was ist möglicherweise der beste Weg, um die Größe Ihrer Bilder zu ändern, bevor Sie sie dem Netzwerk zuführen?
Gibt es eine andere Option, die mir nicht bekannt ist, um das Problem zu lösen, Bilder mit unterschiedlichen Dimensionen zu haben?
Welcher dieser Ansätze ist Ihrer Meinung nach der beste, wenn man den Rechenaufwand, aber auch den möglichen Leistungsverlust des Netzwerks berücksichtigt?
Ich würde mich freuen, wenn die Antworten auf meine Fragen einen Link zu einer Quelle enthalten, falls es eine gibt. Vielen Dank.