Erkennen Sie den visuellen Aufmerksamkeitsbereich in einem Bild

9

Ich versuche, den visuellen Aufmerksamkeitsbereich in einem bestimmten Bild zu erkennen und das Bild in diesen Bereich zuzuschneiden. Wenn ich beispielsweise ein Bild beliebiger Größe und ein Rechteck mit einer LxW-Dimension als Eingabe gebe, möchte ich das Bild auf den wichtigsten visuellen Aufmerksamkeitsbereich zuschneiden. Ich suche dafür einen hochmodernen Ansatz.

Haben wir irgendwelche Tools oder SDK, um das zu implementieren? Jeder Code oder Algorithmus würde wirklich helfen.

— Tina J.
quelle

Übrigens, innerhalb eines "einzelnen" Objekts möchte ich Aufmerksamkeit bekommen. Daher ist die Objekterkennung möglicherweise nicht das Beste.

— Tina J

Suchen Sie nach Deep-Learning-basierten Ansätzen oder klassischen bildverarbeitungsbasierten Ansätzen?

— Varsh

Jeder von ihnen, der besser funktionieren würde. Deep Learning könnte eine bessere Wahl sein.

— Tina J

2

Sie können nach folgenden Papiertiteln suchen:

Ein tiefes mehrstufiges Netzwerk für die Vorhersage von Ausprägungen.
Jenseits der universellen Saliency: Personalisierte Saliency-Vorhersage mit Multi-Task-CNN.

Sie können in Python mit dem Pytorch-Framework codieren.

— varsh
quelle

0

"Aufmerksamkeit" im neuronalen Netzwerk (visuell) ist der Bereich des Bildes, in dem das Netzwerk die meisten Funktionen finden kann, um es mit hoher Sicherheit zu klassifizieren. Basierend auf Ihrer Beschreibung sprechen Sie von "weicher Aufmerksamkeit".

Haben wir irgendwelche Tools oder SDK, um das zu implementieren? Ich glaube nicht, dass es fertige SDKs gibt. Es ist viel besser, ein Modell mit Aufmerksamkeit auf Ihren Datensatz zu trainieren. Sobald Sie Ihr Basismodell fertig haben, können Sie leicht einen Aufmerksamkeitsmechanismus hinzufügen. Ich empfehle Ihnen, https://arxiv.org/pdf/1502.03044.pdf zu überprüfen .

— riemann77
quelle

0

Damit ein Computer den Begrenzungsrahmen oder Kreis um einen visuellen Aufmerksamkeitsbereich in einem Bild erkennt und bereitstellt, muss die Basis für die Aufmerksamkeit bestimmt werden. Dann kann die Methode ausgewählt werden, mit der das Computersystem auf dieser Grundlage Entscheidungen treffen kann. Das wichtigste zuerst.

Ist es ein Gesicht, ein Körper oder eine Spielfigur, die das Objekt von Interesse sein soll? Wird es das dynamischste Objekt im Rahmen in Bezug auf Bewegung sein? Wenn es eine Person ist, ist es immer dieselbe Person? Wird ihr Gesicht in beiden Fällen dem Kamerawinkel ausgesetzt sein? Gibt es nur Standbilder oder sind die Bilder Frames in einem Film?

Sobald Sie wissen, wie SIE das Objekt, das Aufmerksamkeit erfordert, von anderen Objekten und dem Hintergrund unterscheiden würden, können Sie sehen, wie ein Computer diese Erkennung simulieren könnte. Beim Trainieren eines tiefen Netzwerks, das Faltungskerne (CNN oder Faltungs-Neuronales Netzwerk genannt) und möglicherweise Langzeit-Kurzzeitgedächtniszellen (LSTM) umfasst, gibt es Stufen für die Erkennung.

Normalerweise werden Kanten von Dingen zuerst erkannt. In Filmen wird die Bewegung von Kanten als Merkmale des Bildes verfolgt. Elemente im Bild, die identifizieren, um welche Art von Objekt es sich bei den Objekten handelt, stehen an zweiter Stelle. Zum Beispiel kann ein Spielzeug daran erkannt werden, wie Kunststoff Licht reflektiert und welche Farbtypen und Formen Spielzeug gemeinsam haben. Ein Gesicht kann zuerst erkannt werden, indem Augen, Nase, Mund, Kinn und Ohren identifiziert werden.

Nachdem Teile identifiziert wurden, können ganze Objekte durch eine andere Stufe der Merkmalsextraktion identifiziert werden. Bildverarbeitungssysteme folgen denselben Grundprinzipien der Erkennung, die unser menschliches visuelles System verwendet.

Es gibt viele Frameworks und Bibliotheken, die bei diesen Aufgaben helfen. Um sie jedoch verwenden zu können, ist es wichtig, sich ein allgemeines Bild über den Prozess zu machen und zu klären, was die wichtigen Objekte von anderen Objekten abhebt, die ähnlich oder ähnlich sein können völlig anders, so dass die Aufmerksamkeit so konzentriert werden kann, wie Sie es möchten.

Sobald du hast $(h_{min}, v_{min}); (h_{max}, v_{max})$

Das ist Stand der Technik. Es gibt kein SDK auf hoher Ebene, mit dem der Computer angewiesen werden kann, das wichtigste Element im Frame zu finden, ohne zu klären, was damit gemeint ist, und Schulungsvorgänge, um der Software beizubringen, anhand dessen zu ermitteln, was Sie als wichtig erachtet haben einige Kriterien. Jedenfalls noch nicht.

— Douglas Daseeco
quelle