Computer Vision: Objekterkennung mit Beschriftungen, die einzelne Koordinaten sind

Gibt es in der Literatur Artikel, die sich mit der folgenden Objekterkennungsaufgabe befassen?

Die Aufgabe kann wie folgt beschrieben werden:

Bei einer Reihe von Bildern sind die Beschriftungen nur Koordinaten (x, y), die die Objektpositionen darstellen, die wir erkennen möchten. Eine Koordinate befindet sich nicht unbedingt in der Mitte des Objekts und das Objekt kann eine beliebige Größe haben.
Die Aufgabe besteht darin, ein Objekt zu erkennen, das entweder eine Person, ein Boot oder ein Auto ist. Die Beschriftungen geben jedoch nicht die Kategorie der Objekte an. Die Beschriftungen sind lediglich Koordinaten, die sich in der Nähe der interessierenden Objekte befinden.
Die Bilder werden stündlich aufgenommen und sind Schnappschüsse derselben Szene. Daher können Hintergrundsubtraktionstechniken hilfreich sein.
Es gibt ungefähr 2000 Bilder derselben Szene und jedes Bild hat normalerweise 2 interessierende Objekte.

Ich frage mich, ob eine solche Aufgabe schon einmal angegangen wurde.

Schweinefunktionen und SVM haben große Erfolge bei der Erkennung von Menschen in Bildern gezeigt. In der einschlägigen Literatur werden jedoch Trainingsdaten verwendet, bei denen die interessierenden Objekte mit einem Begrenzungsrahmen anstelle einer einzelnen Koordinate gekennzeichnet sind.

Die drei Hauptherausforderungen sind:

Die Auswahl des Begrenzungsrahmens für den Klassifizierer ist schwierig, da Objekte beliebiger Größe sein können.
Schnappschüsse der Szene werden jede Stunde aufgenommen (die Kamera kann sich ebenfalls leicht bewegen); Die Verwendung der Hintergrundsubtraktion ist daher nicht einfach.
Wir haben nicht viele beschriftete Daten.

Es wäre interessant zu sehen, wie die Menschen mit diesen Herausforderungen umgegangen sind.

Vielen Dank!

— Neugierig
quelle

Klingt nach Objekterkennung und -lokalisierung. Welche Recherchen haben Sie durchgeführt? Hast du über diese Themen gelesen? Gibt es einen Grund, warum Sie nicht glauben, dass dies ein Beispiel dafür ist, oder finden Sie das nicht als akzeptable Antwort auf Ihre Frage?

— DW

Während der Recherche zu diesem Thema habe ich kein Forschungspapier gefunden, in dem die Objektbeschriftungen als Koordinaten anstelle von (1) einem Begrenzungsrahmen oder (2) pixelweisen Beschriftungen angegeben sind . Die koordinierte Beschriftung erschwert es Bildverarbeitungsalgorithmen, Objekte zu erkennen, erleichtert dem Menschen jedoch die Beschriftung von Objekten. Aber ich denke, ich kann die Kreuzvalidierung verwenden, um den besten Begrenzungsrahmen für jedes beschriftete Objekt zu bestimmen. Es wäre hilfreich, auf ein Forschungspapier zu verweisen, in dem der Datensatz einen ähnlichen Kennzeichnungsmechanismus aufweist. @nbubis hat eine gute Antwort, aber die Papiere, die er gepostet hat, haben schönere Datensätze.

— Neugierig

Der Stand der Technik bei solchen Problemen wird heutzutage über tiefe neuronale Netze erreicht. Zwei beliebte und neuere Ansätze zur Lösung des Problems der Erkennung und Lokalisierung von Objekten sind unter anderem das YOLO-Papier und das schnellere RCNN , mit denen ein Klassifikator über viele Bereiche unterschiedlicher Größe in einem Bild ausgeführt wird.

Da Menschen, Boote und Autos beliebte Objektklassen sind, würde ich zunächst versuchen, herauszufinden, was vorhandene vorgefertigte Netzwerke für Ihr Problem tun können, und sie dann bei Bedarf anhand Ihrer Daten neu trainieren.

— nbubis
quelle