Bildverarbeitung: Was sind Okklusionen?


71

Ich entwickle ein Bildverarbeitungsprojekt und stoße in vielen wissenschaftlichen Arbeiten auf das Wort Okklusion. Was bedeuten Okklusionen im Kontext der Bildverarbeitung? Das Wörterbuch gibt nur eine allgemeine Definition. Kann jemand sie anhand eines Bildes als Kontext beschreiben?

Antworten:


119

Okklusion bedeutet, dass Sie etwas sehen möchten, dies jedoch aufgrund einer Eigenschaft Ihres Sensor-Setups oder eines Ereignisses nicht möglich ist. Wie genau es sich manifestiert oder wie Sie mit dem Problem umgehen, hängt vom jeweiligen Problem ab .

Einige Beispiele:

Wenn Sie ein System entwickeln, das Objekte (Personen, Autos, ...) verfolgt, tritt eine Okklusion auf, wenn ein Objekt, das Sie verfolgen, von einem anderen Objekt verborgen (verdeckt) wird. Wie zwei Personen, die aneinander vorbeigehen, oder ein Auto, das unter einer Brücke fährt. Das Problem in diesem Fall ist, was Sie tun, wenn ein Objekt verschwindet und wieder erscheint.

Wenn Sie eine Entfernungskamera verwenden , handelt es sich bei der Okklusion um Bereiche, in denen Sie keine Informationen haben. Einige Laser-Entfernungskameras senden einen Laserstrahl auf die zu untersuchende Oberfläche und verfügen dann über eine Kameraeinrichtung, die den Aufprallpunkt dieses Lasers im resultierenden Bild identifiziert. Das gibt die 3D-Koordinaten dieses Punktes. Da Kamera und Laser jedoch nicht unbedingt ausgerichtet sind, können auf der untersuchten Oberfläche Punkte vorhanden sein, die die Kamera sehen kann, die der Laser jedoch nicht treffen kann (Okklusion). Das Problem hier ist eher eine Frage der Sensoreinrichtung.

Dasselbe kann bei der Stereobildgebung auftreten, wenn Teile der Szene nur von einer der beiden Kameras gesehen werden. An diesen Punkten können offensichtlich keine Entfernungsdaten erfasst werden.

Es gibt wahrscheinlich mehr Beispiele.

Wenn Sie Ihr Problem angeben, können wir möglicherweise definieren, um welche Okklusion es sich in diesem Fall handelt und welche Probleme damit verbunden sind


3
Danke kigurai !!! Ich implementiere den SIFT-Algorithmus für einen eingebetteten Prozessor. Ich verstehe jetzt, dass SIFT in gewissem Umfang in der Lage ist, auch solche Objekte zu erkennen, die teilweise abgedeckt (verdeckt) sind.
HaggarTheHorrible

Ich bin froh, geholfen zu haben. Viel Glück!
Hannes Ovrén

25

Das Problem der Okklusion ist einer der Hauptgründe, warum Computer Vision im Allgemeinen schwierig ist. Insbesondere ist dies bei der Objektverfolgung viel problematischer . Siehe die folgenden Abbildungen:

Geben Sie hier die Bildbeschreibung ein

Beachten Sie, dass das Gesicht der Dame in Frames und im Gegensatz zum Gesicht in Frames nicht vollständig sichtbar ist .051908350005


Und hier noch ein Bild, auf dem das Gesicht des Mannes in allen drei Bildern teilweise verborgen ist .

partielle Okklusion


Beachten Sie in dem Bild unten , wie die Verfolgung des Paares in rot und grün Begrenzungsrahmen ist verloren in dem mittleren Rahmen aufgrund Okklusion (dh teilweise von einer anderen Person versteckt vor ihnen) , aber richtig in dem letzten Frame verfolgt , wenn sie (mich fast ) vollständig sichtbar.

Geben Sie hier die Bildbeschreibung ein

Mit freundlicher Genehmigung von Stanford, USC


11

Okklusion ist diejenige, die unsere Sicht blockiert. In dem hier gezeigten Bild können wir die Personen in der ersten Reihe leicht sehen. Die zweite Reihe ist jedoch teilweise sichtbar und die dritte Reihe ist viel weniger sichtbar. Hier sagen wir, dass die zweite Reihe teilweise von der ersten Reihe und die dritte Reihe von der ersten und zweiten Reihe verdeckt ist. Wir können solche Verstopfungen in Klassenzimmern (Schüler sitzen in Reihen), Verkehrsknotenpunkten (Fahrzeuge, die auf ein Signal warten), Wäldern (Bäumen und Pflanzen) usw. sehen, wenn viele Objekte vorhanden sind. Geben Sie hier die Bildbeschreibung ein


3

Da die anderen Antworten die Okklusion gut erklärt haben, werde ich nur noch etwas hinzufügen. Grundsätzlich besteht eine semantische Lücke zwischen uns und den Computern.

Der Computer sieht tatsächlich jedes Bild als eine Folge von Werten, typischerweise im Bereich von 0 bis 255, für jede Farbe im RGB-Bild. Diese Werte werden für jeden Punkt im Bild in Form von (Zeile, Spalte) indiziert. Wenn also die Position der Objekte in der Kamera geändert wird, in der sich ein Aspekt des Objekts verbirgt (Hände einer Person werden nicht angezeigt), sieht der Computer unterschiedliche Zahlen (oder Kanten oder andere Merkmale), sodass sich dies für den Computeralgorithmus ändert das Objekt erkennen, erkennen oder verfolgen.


2

Zusätzlich zu dem, was gesagt wurde, möchte ich Folgendes hinzufügen:

  • Für die Objektverfolgung besteht ein wesentlicher Bestandteil beim Umgang mit Okklusionen darin, eine effiziente Kostenfunktion zu schreiben, mit der zwischen dem okkludierten Objekt und dem Objekt, das es okkludiert, unterschieden werden kann. Wenn die Kostenfunktion nicht in Ordnung ist, werden die Objektinstanzen (IDs) möglicherweise ausgetauscht und das Objekt wird falsch verfolgt. Es gibt zahlreiche Möglichkeiten, wie Kostenfunktionen geschrieben werden können. Einige Methoden verwenden CNNs [1], während andere mehr Kontroll- und Aggregatmerkmale bevorzugen [2] . Der Nachteil von CNN-Modellen besteht darin, dass der Tracker das falsche Objekt erfassen kann und möglicherweise oder möglicherweise, wenn Sie Objekte verfolgen, die sich im Trainingssatz befinden, wenn Objekte vorhanden sind, die sich nicht im Trainingssatz befinden, und die ersten Objekte verdeckt werden kann nie erholen. Hier ist ein Videozeigt dies. Der Nachteil von Aggregatfunktionen besteht darin, dass Sie die Kostenfunktion manuell erstellen müssen. Dies kann Zeit und manchmal Kenntnisse in fortgeschrittener Mathematik erfordern.
  • Bei einer dichten Stereo-Vision-Rekonstruktion tritt eine Okklusion auf, wenn eine Region mit der linken Kamera gesehen wird und nicht mit der rechten (oder umgekehrt). In der Disparitätskarte erscheint dieser verdeckte Bereich schwarz (da die entsprechenden Pixel in diesem Bereich im anderen Bild kein Äquivalent haben). Einige Techniken verwenden die sogenannten Hintergrundfüllungsalgorithmen, die den verdeckten schwarzen Bereich mit Pixeln füllen, die vom Hintergrund kommen. Andere Rekonstruktionsverfahren lassen einfach diese Pixel ohne Werte in der Disparitätskarte zu, da die Pixel, die von der Hintergrundfüllmethode stammen, in diesen Regionen möglicherweise falsch sind. Unten sehen Sie die 3D-projizierten Punkte, die mit einer dichten Stereomethode erhalten wurden. Die Punkte wurden etwas nach rechts gedreht (im 3D-Raum).

    Geben Sie hier die Bildbeschreibung ein

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.