Warum ist der Unterschied der Gaußschen Skala zur Raumskala unveränderlich?


15

Ich werde hier als Beispiel den Algorithmus für die skalierungsinvariante Feature-Transformation verwenden. SIFT erstellt einen Skalierungsraum basierend auf der skalierten Gaußschen Filterung eines Bildes und berechnet dann die Differenz der Gaußschen, um potenzielle Interessenpunkte zu erkennen. Diese Punkte werden als lokale Minima und Maxima über die Differenz der Gaußschen definiert.

Es wird behauptet, dass dieser Ansatz skalierungsinvariant ist (unter anderem rätselhafte Invarianzen). Warum ist das? Mir ist nicht klar, warum das so ist.


Sie wissen nicht, was SIFT ist. Sie finden dies auf wiki de.wikipedia.org/wiki/Scale-invariant_feature_transform . "Lowes Verfahren zur Erzeugung von Bildmerkmalen wandelt ein Bild in eine große Sammlung von Merkmalsvektoren um, von denen jeder für die Bildverschiebung, -skalierung und -drehung unveränderlich, für Beleuchtungsänderungen teilweise unveränderlich und für lokale geometrische Verzerrungen robust ist." Ist das die Erklärung?
Niaren

Ja, davon spreche ich
Wasser

SIFT verwendet die Scale-Space-Theorie. Ich verstehe jedoch nicht, was in dieser Theorie unter "Skaleninvarianz" zu verstehen ist. Sie können versuchen, Tony Lindebergs Artikel darüber zu
Maximus

Antworten:


7

Der Begriff "skaleninvariant" bedeutet hier folgendes. Angenommen, Sie haben Bild I und an einer bestimmten Stelle (x, y) und auf einer bestimmten Skalierungsebene s ein Merkmal (oder einen Interessenpunkt) f erkannt . Angenommen, Sie haben ein Bild I ' , das eine skalierte Version von I ist (z. B. heruntergerechnet). Wenn Ihr Merkmaldetektor skalierungsinvariant ist, sollten Sie in der Lage sein, das entsprechende Merkmal f ' in I' an der entsprechenden Stelle (x ', y') und den entsprechenden Maßstäben s 'zu erkennen , wobei (x, y, s) und (x ', y', s ') sind durch die entsprechende Skalierungstransformation verbunden.

Mit anderen Worten, wenn Ihr skalierungsinvarianter Detektor einen Merkmalspunkt erkannt hat, der dem Gesicht einer anderen Person entspricht, und Sie dann mit Ihrer Kamera dieselbe Szene vergrößern oder verkleinern, sollten Sie dennoch einen Merkmalspunkt auf diesem Gesicht erkennen.

Natürlich möchten Sie auch einen "Feature-Deskriptor", mit dem Sie die beiden Features abgleichen können. Genau das bietet Ihnen SIFT.

Es besteht also die Gefahr, dass Sie weiter verwirrt werden. Hier gibt es zwei Dinge, die skalierungsinvariant sind. Einer davon ist der DoG-Interessenpunktdetektor, der skalierungsunabhängig ist, da er eine bestimmte Art von Bildmerkmalen (Blobs) unabhängig von ihrer Skalierung erkennt. Mit anderen Worten, der DoG-Detektor erkennt Blobs jeder Größe. Die andere skaleninvariante Sache ist der Merkmaldeskriptor, ein Histogramm der Gradientenorientierung, das trotz einer Änderung des Maßstabs für dasselbe Bildmerkmal mehr oder weniger ähnlich bleibt.

Übrigens wird hier die Differenz der Gaußschen als eine Annäherung an das Laplace-von-Gaußschen-Filter verwendet.


Sie haben einige Informationen aus der Skala-Raum-Theorie übernommen. Können Sie bitte die Erklärung beschreiben, was genau beim Vergleich zweier Signale mit Hilfe der Skalenraumtheorie passiert? Der Lindeberg hat in seinen Veröffentlichungen: csc.kth.se/~tony/earlyvision.html einige Beispiele für die Erkennung von Blobs usw. angeführt .
Maximus

Du hast Recht. Ich habe nur versucht, die Intuition hinter der Skala-Raum-Theorie zu beschreiben. Was Sie fragen, sollte eine separate Frage sein. :) Ich denke, Sie sprechen davon, dass in verschiedenen Maßstäben genommene Derivate angemessen normalisiert werden müssen. Wenn Sie zu gröberen Skalen wechseln, wird das Signal geglättet und die Amplitude reduziert. Dies bedeutet, dass die Größe der Ableitungen ebenfalls verringert wird. Um die Ableitungsantwort über Skalen hinweg zu vergleichen, müssen Sie sie mit
Dima

die entsprechende Kraft des Sigmas: erste Ableitung durch Sigma, zweite durch Sigma ^ 2 usw.
Dima

@maximus, hoppla, ich beschlage das @. :)
Dima

Danke für Ihre Antwort! Es hat mir geholfen, aber es gibt noch einige Fragen, die ich hier als andere Frage gestellt habe: dsp.stackexchange.com/questions/570/…
maximus

5

Der Unterschied der Gaußschen ist nicht skalinvariant. SIFT-Skalierung (in begrenztem Maße) invariant, da nach DoG-Extrema über den Skalenraum gesucht wird - das heißt, Skalierung mit DoG-Extrema wird sowohl räumlich als auch relativ zu benachbarten Skalen gefunden. Da die Ausgabe-DoG für diese feste Skala erhalten wird (die keine Funktion der Eingabeskala ist), ist das Ergebnis skalierungsunabhängig, dh skalierungsinvariant.


1
Richtig. Es wird jedoch nur entlang der benachbarten Skalen nach Extrema gesucht. Das sind nicht alle Maßstäbe, es sei denn, ich täusche mich. Selbst wenn es nur Skalen waren, ist es immer noch nicht klar, wie skalierungsunabhängig es ist
Wasser

@water, das ist genau richtig. Sie wollen kein Extrem über alle Skalen hinweg, Sie wollen lokale Extrema. Auf diese Weise können Sie verschachtelte Strukturen erkennen, z. B. einen kleinen dunklen Kreis innerhalb eines großen hellen Kreises auf grauem Hintergrund.
Dima

DoG wird anstelle von LoG verwendet, da die DoG schneller berechnet werden kann.
Maximus
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.