Die vorherigen Antworten sind wirklich großartig, ich möchte noch einige Ergänzungen hervorheben:
Objektsegmentierung
Einer der Gründe, warum dies in der Forschungsgemeinschaft in Ungnade gefallen ist, ist, dass es problematisch vage ist. Objektsegmentierung bedeutet einfach, eine einzelne oder eine kleine Anzahl von Objekten in einem Bild zu finden und eine Grenze um sie herum zu ziehen. Für die meisten Zwecke können Sie dennoch davon ausgehen, dass dies bedeutet. Es wurde jedoch auch verwendet, um die Segmentierung von Blobs, die Objekte sein könnten , die Segmentierung von Objekten zu bedeuten aus dem Hintergrund (heute häufiger als Hintergrundsubtraktion oder Hintergrundsegmentierung oder Vordergrunderkennung bezeichnet) und in einigen Fällen sogar austauschbar mit der Objekterkennung unter Verwendung von Begrenzungsrahmen verwendet (dies hörte schnell mit dem Aufkommen von Ansätzen eines tiefen neuronalen Netzwerks zur Objekterkennung auf, könnte aber auch vorher eine Objekterkennung sein bedeuten einfach ein ganzes Bild mit dem Objekt darin beschriften).
Was macht "Segmentierung" "semantisch"?
Simpy, jedes Segment oder bei Deep-Methoden jedes Pixel erhält eine Klassenbezeichnung, die auf einer Kategorie basiert. Die Segmentierung im Allgemeinen ist nur die Aufteilung des Bildes nach einer Regel. Die Mittelwertverschiebungssegmentierung beispielsweise von einem sehr hohen Niveau teilt die Daten entsprechend den Änderungen in der Energie des Bildes. GrafikschnittDie basierte Segmentierung wird ebenfalls nicht gelernt, sondern direkt von den Eigenschaften jedes Bildes getrennt vom Rest abgeleitet. Neuere (auf einem neuronalen Netzwerk basierende) Verfahren verwenden Pixel, die beschriftet sind, um zu lernen, die lokalen Merkmale zu identifizieren, die bestimmten Klassen zugeordnet sind, und klassifizieren dann jedes Pixel basierend darauf, welche Klasse das höchste Vertrauen für dieses Pixel hat. Auf diese Weise ist "Pixel-Labeling" ein ehrlicherer Name für die Aufgabe, und die "Segmentierungs" -Komponente entsteht.
Instanzsegmentierung
Die wohl schwierigste, relevanteste und ursprünglichste Bedeutung der Objektsegmentierung, "Instanzsegmentierung", bedeutet die Segmentierung der einzelnen Objekte innerhalb einer Szene, unabhängig davon, ob sie vom gleichen Typ sind. Einer der Gründe, warum dies so schwierig ist, ist, dass aus Sicht der Vision (und in gewisser Weise aus philosophischer Sicht) nicht ganz klar ist, was eine "Objekt" -Instanz ausmacht. Sind Körperteile Objekte? Sollten solche "Teilobjekte" überhaupt durch einen Instanzsegmentierungsalgorithmus segmentiert werden? Sollten sie nur segmentiert werden, wenn sie vom Ganzen getrennt gesehen werden? Was ist mit zusammengesetzten Objekten, bei denen zwei Dinge klar miteinander verbunden, aber trennbar sein sollten, ein oder zwei Objekte (ist ein Stein, der auf die Spitze eines Stocks geklebt ist, eine Axt, ein Hammer oder nur ein Stock und ein Stein, sofern er nicht richtig hergestellt wurde?). Auch ist es nicht ' t klar, wie Instanzen zu unterscheiden sind. Ist ein Testament eine separate Instanz von den anderen Wänden, an denen es befestigt ist? In welcher Reihenfolge sollten Instanzen gezählt werden? Wie sie erscheinen? Nähe zum Standpunkt? Trotz dieser Schwierigkeiten ist die Segmentierung von Objekten immer noch eine große Sache, da wir als Menschen unabhängig von ihrer "Klassenbezeichnung" ständig mit Objekten interagieren (indem wir zufällige Objekte um Sie herum als Briefbeschwerer verwenden und auf Dingen sitzen, die keine Stühle sind). und so versuchen einige Datensätze, dieses Problem zu lösen, aber der Hauptgrund dafür, dass dem Problem noch nicht viel Aufmerksamkeit geschenkt wird, ist, dass es nicht gut genug definiert ist.
Szenenanalyse / Szenenbeschriftung
Scene Parsing ist der strikte Segmentierungsansatz für die Szenenbeschriftung, der auch einige eigene Unbestimmtheitsprobleme aufweist. In der Vergangenheit bedeutete die Szenenbeschriftung, die gesamte "Szene" (Bild) in Segmente aufzuteilen und allen eine Klassenbeschriftung zu geben. Es wurde jedoch auch verwendet, um Bereichen des Bildes Klassenbeschriftungen zu geben, ohne sie explizit zu segmentieren. In Bezug auf die Segmentierung bedeutet "semantische Segmentierung" nicht die Aufteilung der gesamten Szene. Für die semantische Segmentierung soll der Algorithmus nur die ihm bekannten Objekte segmentieren und wird durch seine Verlustfunktion für das Beschriften von Pixeln ohne Beschriftung bestraft. Beispielsweise ist der MS-COCO-Datensatz ein Datensatz für die semantische Segmentierung, bei dem nur einige Objekte segmentiert werden.