Mathematik der Harris-Eckpunkterkennung


23

Dies ist der mathematische Ausdruck für die Harris-Eckenerkennung:

Dies ist der mathematische Ausdruck für die Harris-Eckenerkennung ...

Aber ich habe folgende Zweifel:

  1. Was ist die physikalische Bedeutung von und ? Viele Referenzen sagen , es ist der Betrag, um den der Fenster verschoben. Wie weit ist das Fenster verschoben? Ein Pixel oder zwei Pixel?uvw
  2. Wird die Summe über die Pixelpositionen vom Fenster abgedeckt?
  3. Angenommen, einfach , ist die Intensität des einzelnen Pixels bei oder die Summe der Intensitäten innerhalb des Fensters mit der Mitte bei ?w(x,y)=1I(x,y)(x,y)(x,y)
  4. Laut Wiki wird gesagt, das Bild sei 2D, mit I bezeichnet, und dann wird gebeten, einen Bildausschnitt über der Fläche . Dann wird die Notation(x,y)I(x,y)

Ich finde es verwirrend, die mathematische Erklärung zu verstehen. Hat jemand eine Idee?


2
Schauen Sie sich diesen Vortrag über den Harris-Eckendetektor an. Es ist sehr klar: youtube.com/watch?v=P35WsRDnTsU&t=41m12s

Ich habe einen Beitrag in meinem persönlichen Blog geschrieben, der auf der obigen Vorlesung basiert. matlabcorner.wordpress.com/2012/11/17/…
Andrey Rubshtein

Antworten:


31

Die Bedeutung dieser Formel ist sehr einfach. Stellen Sie sich vor, Sie nehmen zwei gleich große kleine Bereiche eines Bildes auf, den blauen und den roten:

Bildbeschreibung hier eingeben

Die Fensterfunktion ist außerhalb des roten Rechtecks ​​gleich 0 (der Einfachheit halber können wir annehmen, dass das Fenster innerhalb des roten Rechtecks ​​einfach konstant ist). Die Fensterfunktion wählt also die Pixel aus, die Sie betrachten möchten, und weist jedem Pixel eine relative Gewichtung zu. (Am gebräuchlichsten ist das Gaußsche Fenster, da es rotationssymmetrisch ist, die Pixel in der Nähe der Fenstermitte effizient berechnet und hervorhebt.) Das blaue Rechteck wird um (u, v) verschoben.

Als nächstes berechnen Sie die Summe der quadrierten Differenz zwischen den rot und blau markierten Bildteilen, dh Sie subtrahieren sie pixelweise, quadrieren die Differenz und addieren das Ergebnis (der Einfachheit halber wird angenommen, dass das Fenster in dem von uns betrachteten Bereich = 1 ist beim). Dies gibt Ihnen eine Nummer für jedes mögliche (u, v) -> E (u, v).

Mal sehen, was passiert, wenn wir das für verschiedene Werte von u / v berechnen:

Behalte zuerst v = 0:

Bildbeschreibung hier eingeben

Dies sollte nicht überraschen: Der Unterschied zwischen den Bildteilen ist am geringsten, wenn der Versatz (u, v) zwischen ihnen 0 beträgt. Wenn Sie den Abstand zwischen den beiden Feldern vergrößern, erhöht sich auch die Summe der quadratischen Unterschiede.

Halte u = 0:

Bildbeschreibung hier eingeben

Das Diagramm sieht ähnlich aus, aber die Summe der quadratischen Unterschiede zwischen den beiden Bildteilen ist viel kleiner, wenn Sie das blaue Rechteck in Richtung der Kante verschieben.

Eine vollständige Darstellung von E (u, v) sieht folgendermaßen aus:

Bildbeschreibung hier eingeben

Die Handlung sieht ein bisschen aus wie eine "Schlucht": Es gibt nur einen kleinen Unterschied, wenn Sie das Bild in Richtung der Schlucht verschieben. Das liegt daran, dass dieser Bildausschnitt eine dominante (vertikale) Ausrichtung hat.

Wir können dasselbe für einen anderen Image-Patch tun:

Bildbeschreibung hier eingeben

Hier sieht die Darstellung von E (u, v) anders aus:

Bildbeschreibung hier eingeben

Egal auf welche Weise Sie das Patch verschieben, es sieht immer anders aus.

Die Form der Funktion E (u, v) sagt also etwas über das Bildfeld aus

  • Wenn E (u, v) überall in der Nähe von 0 ist, enthält das betrachtete Bildfeld keine Textur
  • Wenn E (u, v) "canyonförmig" ist, hat das Feld eine dominante Ausrichtung (dies kann eine Kante oder eine Textur sein).
  • Wenn E (u, v) "kegelförmig" ist, hat der Fleck eine Textur, aber keine dominante Orientierung. Das ist die Art von Patch, nach der ein Eckendetektor sucht.

Viele Referenzen sagen, es ist die Größe, um die sich das Fenster "w" verschoben hat ... also wie viel ist das Fenster verschoben? Ein Pixel ... Zwei Pixel?

Normalerweise berechnen Sie E (u, v) überhaupt nicht. Sie interessieren sich nur für die Form in der Nähe von (u, v) = (0,0). Sie wollen also nur die Taylor-Expansion von E (u, v) in der Nähe von (0,0), die die "Form" davon vollständig beschreibt.

Wird die Summe über die Pixelpositionen vom Fenster abgedeckt?

Mathematisch gesehen ist es eleganter, die Summe über alle Pixel laufen zu lassen. In der Praxis gibt es keinen Grund, Pixel zu summieren, bei denen das Fenster 0 ist.


Thanx eine Tonne Nikie ....
rotating_image

2
Ich wusste, dass Sie hier eine ausgezeichnete Antwort bekommen würden, @rotating_image
karlphillip

Thanx karlphillip ..
rotating_image

1
Eine Million positive Stimmen!
Phonon
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.