Die Bedeutung dieser Formel ist sehr einfach. Stellen Sie sich vor, Sie nehmen zwei gleich große kleine Bereiche eines Bildes auf, den blauen und den roten:
Die Fensterfunktion ist außerhalb des roten Rechtecks gleich 0 (der Einfachheit halber können wir annehmen, dass das Fenster innerhalb des roten Rechtecks einfach konstant ist). Die Fensterfunktion wählt also die Pixel aus, die Sie betrachten möchten, und weist jedem Pixel eine relative Gewichtung zu. (Am gebräuchlichsten ist das Gaußsche Fenster, da es rotationssymmetrisch ist, die Pixel in der Nähe der Fenstermitte effizient berechnet und hervorhebt.) Das blaue Rechteck wird um (u, v) verschoben.
Als nächstes berechnen Sie die Summe der quadrierten Differenz zwischen den rot und blau markierten Bildteilen, dh Sie subtrahieren sie pixelweise, quadrieren die Differenz und addieren das Ergebnis (der Einfachheit halber wird angenommen, dass das Fenster in dem von uns betrachteten Bereich = 1 ist beim). Dies gibt Ihnen eine Nummer für jedes mögliche (u, v) -> E (u, v).
Mal sehen, was passiert, wenn wir das für verschiedene Werte von u / v berechnen:
Behalte zuerst v = 0:
Dies sollte nicht überraschen: Der Unterschied zwischen den Bildteilen ist am geringsten, wenn der Versatz (u, v) zwischen ihnen 0 beträgt. Wenn Sie den Abstand zwischen den beiden Feldern vergrößern, erhöht sich auch die Summe der quadratischen Unterschiede.
Halte u = 0:
Das Diagramm sieht ähnlich aus, aber die Summe der quadratischen Unterschiede zwischen den beiden Bildteilen ist viel kleiner, wenn Sie das blaue Rechteck in Richtung der Kante verschieben.
Eine vollständige Darstellung von E (u, v) sieht folgendermaßen aus:
Die Handlung sieht ein bisschen aus wie eine "Schlucht": Es gibt nur einen kleinen Unterschied, wenn Sie das Bild in Richtung der Schlucht verschieben. Das liegt daran, dass dieser Bildausschnitt eine dominante (vertikale) Ausrichtung hat.
Wir können dasselbe für einen anderen Image-Patch tun:
Hier sieht die Darstellung von E (u, v) anders aus:
Egal auf welche Weise Sie das Patch verschieben, es sieht immer anders aus.
Die Form der Funktion E (u, v) sagt also etwas über das Bildfeld aus
- Wenn E (u, v) überall in der Nähe von 0 ist, enthält das betrachtete Bildfeld keine Textur
- Wenn E (u, v) "canyonförmig" ist, hat das Feld eine dominante Ausrichtung (dies kann eine Kante oder eine Textur sein).
- Wenn E (u, v) "kegelförmig" ist, hat der Fleck eine Textur, aber keine dominante Orientierung. Das ist die Art von Patch, nach der ein Eckendetektor sucht.
Viele Referenzen sagen, es ist die Größe, um die sich das Fenster "w" verschoben hat ... also wie viel ist das Fenster verschoben? Ein Pixel ... Zwei Pixel?
Normalerweise berechnen Sie E (u, v) überhaupt nicht. Sie interessieren sich nur für die Form in der Nähe von (u, v) = (0,0). Sie wollen also nur die Taylor-Expansion von E (u, v) in der Nähe von (0,0), die die "Form" davon vollständig beschreibt.
Wird die Summe über die Pixelpositionen vom Fenster abgedeckt?
Mathematisch gesehen ist es eleganter, die Summe über alle Pixel laufen zu lassen. In der Praxis gibt es keinen Grund, Pixel zu summieren, bei denen das Fenster 0 ist.