Ich versuche zu verstehen, wie und warum die Fourier-Transformation in der Bildverarbeitung / Computer Vision verwendet wird. Unten ist, was ich bisher gesammelt habe. Wäre mein Verständnis davon richtig? Wenn nicht, könnte es mir jemand in einfachem Englisch erklären? Oder hat jemand etwas hinzuzufügen? Könnte jemand die "diskrete Fourier-Transformation" erklären?
Die Fourier-Transformation zerlegt ein Bild in seine Sinus- und Cosinus-Komponenten. Einfach ausgedrückt sind Sinus und Cosinus Wellen, die bei einem Minimum bzw. Maximum beginnen. In der realen Welt können wir nicht sagen, ob eine Welle, die wir beobachten, an einem maximalen oder minimalen Punkt begonnen hat, und daher können wir nicht wirklich zwischen beiden unterscheiden. Daher werden Sinus und Cosinus einfach als Sinuskurven bezeichnet.
Wenn wir die FT auf ein Bild anwenden, transformieren wir es aus seiner räumlichen Domäne in eine "Frequenzdomäne", die im Wesentlichen das Bild ist, das in Bezug auf seine Variation in Farbe und Helligkeit über die Zeit dargestellt wird (nun, nicht Zeit, sondern Raum. Das ist, über eine Anzahl von Pixeln).
EDIT: Warum sollte ich die Fourier-Transformation verwenden? Und was sind seine Vorteile gegenüber anderen Methoden? Eine Anwendung in der Literatur ist beispielsweise die Formerkennung oder Rauschunterdrückung. Wie kann man grundsätzlich die Formerkennung mit der FT durchführen?