Was ist "semantische Segmentierung" im Vergleich zu "Segmentierung" und "Szenenbeschriftung"?


97

Ist die semantische Segmentierung nur ein Pleonasmus oder gibt es einen Unterschied zwischen "semantischer Segmentierung" und "Segmentierung"? Gibt es einen Unterschied zu "Szenenbeschriftung" oder "Szenenanalyse"?

Was ist der Unterschied zwischen Pixelebene und pixelweiser Segmentierung?

(Nebenfrage: Wenn Sie diese Art von pixelweiser Annotation haben, erhalten Sie die Objekterkennung kostenlos oder gibt es noch etwas zu tun?)

Bitte geben Sie eine Quelle für Ihre Definitionen an.

Quellen, die "semantische Segmentierung" verwenden

  • Jonathan Long, Evan Shelhamer und Trevor Darrell: für die semantische Segmentierung . CVPR, 2015 und PAMI, 2016
  • Hong, Seunghoon, Hyeonwoo Noh und Bohyung Han: "Entkoppeltes tiefes neuronales Netzwerk für halbüberwachte semantische Segmentierung." arXiv-Vorabdruck arXiv: 1506.04924 , 2015.
  • V. Lempitsky, A. Vedaldi und A. Zisserman: Ein Pylonmodell für die semantische Segmentierung. Fortschritte in neuronalen Informationsverarbeitungssystemen, 2011.

Quellen, die "Szenenbeschriftung" verwenden

Quelle, die "Pixelebene" verwendet

  • Pinheiro, Pedro O. und Ronan Collobert: "Von der Beschriftung auf Bildebene zur Beschriftung auf Pixelebene mit Faltungsnetzwerken." Berichte der IEEE-Konferenz über Computer Vision und Mustererkennung, 2015. (siehe http://arxiv.org/abs/1411.6228 )

Quelle, die "pixelweise" verwendet

  • Li, Hongsheng, Rui Zhao und Xiaogang Wang: "Hocheffiziente Vorwärts- und Rückwärtsausbreitung von Faltungs-Neuronalen Netzen zur pixelweisen Klassifizierung." arXiv-Vorabdruck arXiv: 1412.4526 , 2014.

Google Ngrams

"Semantische Segmentierung" scheint in letzter Zeit häufiger verwendet zu werden als "Szenenbeschriftung"

Geben Sie hier die Bildbeschreibung ein


Andere Begriffe, die sehr ähnlich zu sein scheinen: (Per-) Pixelklassifizierung / Beschriftung
Martin Thoma

12
Es ist wirklich interessant, dass @MartinThoma einen arXiv-Preprint hat, der die semantische Segmentierung untersucht und fast 6 Monate nach der Frage [link] ( arxiv.org/pdf/1602.06541.pdf ) veröffentlicht wurde. Gut gemacht!
Mohamed Hasan

Antworten:


92

"Segmentierung" ist eine Aufteilung eines Bildes in mehrere "zusammenhängende" Teile, ohne jedoch zu verstehen, was diese Teile darstellen. Eines der bekanntesten Werke (aber definitiv nicht das erste) ist Shi und Malik "Normalized Cuts and Image Segmentation" PAMI 2000 . Diese Arbeiten versuchen, "Kohärenz" in Bezug auf Hinweise auf niedriger Ebene wie Farbe, Textur und Glätte der Grenze zu definieren. Sie können diese Arbeiten auf die Gestalttheorie zurückführen .

Andererseits versucht "semantische Segmentierung" , das Bild in semantisch bedeutsame Teile zu unterteilen, und jeden Teil in eine der vorbestimmten Klassen zu klassifizieren. Sie können das gleiche Ziel auch erreichen, indem Sie jedes Pixel (und nicht das gesamte Bild / Segment) klassifizieren. In diesem Fall führen Sie eine pixelweise Klassifizierung durch, die zum gleichen Endergebnis führt, jedoch auf einem etwas anderen Pfad ...

Man kann also sagen, dass "semantische Segmentierung", "Szenenbeschriftung" und "pixelweise Klassifizierung" im Grunde das gleiche Ziel erreichen: das semantische Verstehen der Rolle jedes Pixels im Bild. Sie können viele Wege gehen, um dieses Ziel zu erreichen, und diese Wege führen zu geringfügigen Nuancen in der Terminologie.


2
Welcher Pfad führt zur semantischen Segmentierung und welcher zur Szenenbeschriftung oder pixelweisen Klassifizierung?
Martin Thoma

3
@moose Im Allgemeinen führen Sie "semantische Segmentierung" durch, wenn Sie Tools und Algorithmen verwenden, die aus dem Forschungsbereich "Segmentierung" stammen (z. B. CRF, Begriffe, die die Glätte induzieren usw.). Wenn Sie dagegen Werkzeuge und Algorithmen verwenden, die bei der lokalen Klassifizierung der Bildklassifizierung verwendet werden, beschreiben Sie Ihre Arbeit eher als "pixelweise Beschriftung". Ich glaube jedoch nicht, dass es wirklich einen praktischen Unterschied gibt, nur eine semantische: Dies sind Synonyme für dasselbe Endziel.
Shai

63

Ich habe viele Artikel über Objekterkennung, Objekterkennung, Objektsegmentierung, Bildsegmentierung und semantische Bildsegmentierung gelesen und hier sind meine Schlussfolgerungen, die nicht wahr sein könnten:

Objekterkennung: In einem bestimmten Bild müssen Sie alle Objekte erkennen (eine eingeschränkte Objektklasse hängt von Ihrem Datensatz ab), sie mit einem Begrenzungsrahmen lokalisieren und diesen Begrenzungsrahmen mit einer Beschriftung kennzeichnen. Im folgenden Bild sehen Sie eine einfache Ausgabe einer Objekterkennung auf dem neuesten Stand der Technik.

Objekterkennung

Objekterkennung: Es ist wie bei der Objekterkennung, aber in dieser Aufgabe gibt es nur zwei Klassen von Objektklassifizierungen, dh Objektbegrenzungsrahmen und Nicht-Objektbegrenzungsrahmen. Zum Beispiel Autoerkennung: Sie müssen alle Autos in einem bestimmten Bild mit ihren Begrenzungsrahmen erkennen.

Objekterkennung

Objektsegmentierung: Wie bei der Objekterkennung erkennen Sie alle Objekte in einem Bild, aber Ihre Ausgabe sollte dieses Objekt anzeigen, das Pixel des Bildes klassifiziert.

Objektsegmentierung

Bildsegmentierung: In der Bildsegmentierung segmentieren Sie Bereiche des Bildes. Ihre Ausgabe kennzeichnet keine Segmente und Bereiche eines Bildes, die miteinander übereinstimmen und sich im selben Segment befinden sollten. Das Extrahieren von Superpixeln aus einem Bild ist ein Beispiel für diese Aufgabe oder die Segmentierung von Vordergrund und Hintergrund.

Bildsegmentierung

Semantische Segmentierung: Bei der semantischen Segmentierung müssen Sie jedes Pixel mit einer Klasse von Objekten (Auto, Person, Hund, ...) und Nichtobjekten (Wasser, Himmel, Straße, ...) kennzeichnen. Mit anderen Worten, in der semantischen Segmentierung werden Sie jeden Bildbereich beschriften.

semantische Segmenation

Ich denke, Pixel-Level und pixelweise Beschriftung ist im Grunde das gleiche, könnte Bildsegmentierung oder semantische Segmentierung sein. Ich habe auch Ihre Frage in diesem Link als gleich beantwortet .


8
Ich würde auch Instanzsegmentierung hinzufügen, dh Delienation zwischen Instanzen desselben Objekts
Alex

1
Ich würde argumentieren, dass "Bilderkennung" eher ein Synonym für "Bildklassifizierung" als für "Bilderkennung" ist. Es geht darum, ein oder mehrere Objekte in einem Bild zu erkennen und erkennen zu können, ob es vorhanden ist. Wenn wir auch wissen wollen, wo es sich befindet, müssen wir die Objekte mithilfe von Begrenzungsrahmen erkennen. Ich sehe auch keinen Grund, warum ein Objektdetektor nur eine einzelne Klasse erkennen kann.
Pietz

Ich stimme Ihnen teilweise zu. Ich habe nicht erwähnt, was Bilderkennung ist, daher können Bilderkennung und Klassifizierung dasselbe bedeuten. Die Objekterkennung wird jedoch hauptsächlich für Probleme mit zwei Klassen und die Objekterkennung für mehrere Klassen verwendet. Wie auch immer, ich habe keine Ahnung von meiner Antwort, es war nur meine Idee, vor ungefähr drei Jahren eine Zeitung zu lesen! Prost!
e_soroush

Könnten Sie einige Stellen näher erläutern, an denen Sie Ihre Messwerte finden?
Qarthandso

36

Die vorherigen Antworten sind wirklich großartig, ich möchte noch einige Ergänzungen hervorheben:

Objektsegmentierung

Einer der Gründe, warum dies in der Forschungsgemeinschaft in Ungnade gefallen ist, ist, dass es problematisch vage ist. Objektsegmentierung bedeutet einfach, eine einzelne oder eine kleine Anzahl von Objekten in einem Bild zu finden und eine Grenze um sie herum zu ziehen. Für die meisten Zwecke können Sie dennoch davon ausgehen, dass dies bedeutet. Es wurde jedoch auch verwendet, um die Segmentierung von Blobs, die Objekte sein könnten , die Segmentierung von Objekten zu bedeuten aus dem Hintergrund (heute häufiger als Hintergrundsubtraktion oder Hintergrundsegmentierung oder Vordergrunderkennung bezeichnet) und in einigen Fällen sogar austauschbar mit der Objekterkennung unter Verwendung von Begrenzungsrahmen verwendet (dies hörte schnell mit dem Aufkommen von Ansätzen eines tiefen neuronalen Netzwerks zur Objekterkennung auf, könnte aber auch vorher eine Objekterkennung sein bedeuten einfach ein ganzes Bild mit dem Objekt darin beschriften).

Was macht "Segmentierung" "semantisch"?

Simpy, jedes Segment oder bei Deep-Methoden jedes Pixel erhält eine Klassenbezeichnung, die auf einer Kategorie basiert. Die Segmentierung im Allgemeinen ist nur die Aufteilung des Bildes nach einer Regel. Die Mittelwertverschiebungssegmentierung beispielsweise von einem sehr hohen Niveau teilt die Daten entsprechend den Änderungen in der Energie des Bildes. GrafikschnittDie basierte Segmentierung wird ebenfalls nicht gelernt, sondern direkt von den Eigenschaften jedes Bildes getrennt vom Rest abgeleitet. Neuere (auf einem neuronalen Netzwerk basierende) Verfahren verwenden Pixel, die beschriftet sind, um zu lernen, die lokalen Merkmale zu identifizieren, die bestimmten Klassen zugeordnet sind, und klassifizieren dann jedes Pixel basierend darauf, welche Klasse das höchste Vertrauen für dieses Pixel hat. Auf diese Weise ist "Pixel-Labeling" ein ehrlicherer Name für die Aufgabe, und die "Segmentierungs" -Komponente entsteht.

Instanzsegmentierung

Die wohl schwierigste, relevanteste und ursprünglichste Bedeutung der Objektsegmentierung, "Instanzsegmentierung", bedeutet die Segmentierung der einzelnen Objekte innerhalb einer Szene, unabhängig davon, ob sie vom gleichen Typ sind. Einer der Gründe, warum dies so schwierig ist, ist, dass aus Sicht der Vision (und in gewisser Weise aus philosophischer Sicht) nicht ganz klar ist, was eine "Objekt" -Instanz ausmacht. Sind Körperteile Objekte? Sollten solche "Teilobjekte" überhaupt durch einen Instanzsegmentierungsalgorithmus segmentiert werden? Sollten sie nur segmentiert werden, wenn sie vom Ganzen getrennt gesehen werden? Was ist mit zusammengesetzten Objekten, bei denen zwei Dinge klar miteinander verbunden, aber trennbar sein sollten, ein oder zwei Objekte (ist ein Stein, der auf die Spitze eines Stocks geklebt ist, eine Axt, ein Hammer oder nur ein Stock und ein Stein, sofern er nicht richtig hergestellt wurde?). Auch ist es nicht ' t klar, wie Instanzen zu unterscheiden sind. Ist ein Testament eine separate Instanz von den anderen Wänden, an denen es befestigt ist? In welcher Reihenfolge sollten Instanzen gezählt werden? Wie sie erscheinen? Nähe zum Standpunkt? Trotz dieser Schwierigkeiten ist die Segmentierung von Objekten immer noch eine große Sache, da wir als Menschen unabhängig von ihrer "Klassenbezeichnung" ständig mit Objekten interagieren (indem wir zufällige Objekte um Sie herum als Briefbeschwerer verwenden und auf Dingen sitzen, die keine Stühle sind). und so versuchen einige Datensätze, dieses Problem zu lösen, aber der Hauptgrund dafür, dass dem Problem noch nicht viel Aufmerksamkeit geschenkt wird, ist, dass es nicht gut genug definiert ist. Geben Sie hier die Bildbeschreibung ein

Szenenanalyse / Szenenbeschriftung

Scene Parsing ist der strikte Segmentierungsansatz für die Szenenbeschriftung, der auch einige eigene Unbestimmtheitsprobleme aufweist. In der Vergangenheit bedeutete die Szenenbeschriftung, die gesamte "Szene" (Bild) in Segmente aufzuteilen und allen eine Klassenbeschriftung zu geben. Es wurde jedoch auch verwendet, um Bereichen des Bildes Klassenbeschriftungen zu geben, ohne sie explizit zu segmentieren. In Bezug auf die Segmentierung bedeutet "semantische Segmentierung" nicht die Aufteilung der gesamten Szene. Für die semantische Segmentierung soll der Algorithmus nur die ihm bekannten Objekte segmentieren und wird durch seine Verlustfunktion für das Beschriften von Pixeln ohne Beschriftung bestraft. Beispielsweise ist der MS-COCO-Datensatz ein Datensatz für die semantische Segmentierung, bei dem nur einige Objekte segmentiert werden. MS-COCO-Beispielbilder

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.