Damit ein Computer den Begrenzungsrahmen oder Kreis um einen visuellen Aufmerksamkeitsbereich in einem Bild erkennt und bereitstellt, muss die Basis für die Aufmerksamkeit bestimmt werden. Dann kann die Methode ausgewählt werden, mit der das Computersystem auf dieser Grundlage Entscheidungen treffen kann. Das wichtigste zuerst.
Ist es ein Gesicht, ein Körper oder eine Spielfigur, die das Objekt von Interesse sein soll? Wird es das dynamischste Objekt im Rahmen in Bezug auf Bewegung sein? Wenn es eine Person ist, ist es immer dieselbe Person? Wird ihr Gesicht in beiden Fällen dem Kamerawinkel ausgesetzt sein? Gibt es nur Standbilder oder sind die Bilder Frames in einem Film?
Sobald Sie wissen, wie SIE das Objekt, das Aufmerksamkeit erfordert, von anderen Objekten und dem Hintergrund unterscheiden würden, können Sie sehen, wie ein Computer diese Erkennung simulieren könnte. Beim Trainieren eines tiefen Netzwerks, das Faltungskerne (CNN oder Faltungs-Neuronales Netzwerk genannt) und möglicherweise Langzeit-Kurzzeitgedächtniszellen (LSTM) umfasst, gibt es Stufen für die Erkennung.
Normalerweise werden Kanten von Dingen zuerst erkannt. In Filmen wird die Bewegung von Kanten als Merkmale des Bildes verfolgt. Elemente im Bild, die identifizieren, um welche Art von Objekt es sich bei den Objekten handelt, stehen an zweiter Stelle. Zum Beispiel kann ein Spielzeug daran erkannt werden, wie Kunststoff Licht reflektiert und welche Farbtypen und Formen Spielzeug gemeinsam haben. Ein Gesicht kann zuerst erkannt werden, indem Augen, Nase, Mund, Kinn und Ohren identifiziert werden.
Nachdem Teile identifiziert wurden, können ganze Objekte durch eine andere Stufe der Merkmalsextraktion identifiziert werden. Bildverarbeitungssysteme folgen denselben Grundprinzipien der Erkennung, die unser menschliches visuelles System verwendet.
Es gibt viele Frameworks und Bibliotheken, die bei diesen Aufgaben helfen. Um sie jedoch verwenden zu können, ist es wichtig, sich ein allgemeines Bild über den Prozess zu machen und zu klären, was die wichtigen Objekte von anderen Objekten abhebt, die ähnlich oder ähnlich sein können völlig anders, so dass die Aufmerksamkeit so konzentriert werden kann, wie Sie es möchten.
Sobald du hast ( hm i n, vm i n) ; ( hm a x, vm a x)
Das ist Stand der Technik. Es gibt kein SDK auf hoher Ebene, mit dem der Computer angewiesen werden kann, das wichtigste Element im Frame zu finden, ohne zu klären, was damit gemeint ist, und Schulungsvorgänge, um der Software beizubringen, anhand dessen zu ermitteln, was Sie als wichtig erachtet haben einige Kriterien. Jedenfalls noch nicht.