Das Folgende stammt aus dem Artikel von Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Ein naheliegender Ansatz wäre, die lokalen Bildintensitäten um den Schlüsselpunkt im geeigneten Maßstab abzutasten und diese unter Verwendung eines normalisierten Korrelationsmaßes abzugleichen. Die einfache Korrelation von Bildfeldern reagiert jedoch sehr empfindlich auf Änderungen, die zu einer Fehlregistrierung von Proben führen, wie z. B. eine Änderung des Fein- oder 3D-Blickwinkels oder nicht starre Verformungen. Ein besserer Ansatz wurde von Edelman, Intrator und Poggio (1997) demonstriert. Ihre vorgeschlagene Darstellung basierte auf einem Modell des biologischen Sehens, insbesondere komplexer Neuronen im primären visuellen Kortex.Diese komplexen Neuronen reagieren auf einen Gradienten mit einer bestimmten Orientierung und räumlichen Frequenz, aber der Ort des Gradienten auf der Netzhaut kann sich über ein kleines Empfangsfeld verschieben, anstatt genau lokalisiert zu sein. Edelman et al. Es wurde die Hypothese aufgestellt, dass die Funktion dieser komplexen Neuronen darin bestand, 3D-Objekte aus verschiedenen Blickwinkeln abzugleichen und zu erkennen.
Ich versuche, den SIFT-Deskriptor zu verstehen. Ich verstehe die vorherige Stufe (Schlüsselpunktdetektor).
Ich weiß nicht, warum es so implementiert wird. Ich möchte die Geschichte hinter der Geschichte wissen.