Du bist auf dem richtigen Weg.
Invarianz bedeutet, dass Sie ein Objekt als Objekt erkennen können, auch wenn sein Erscheinungsbild in gewisser Weise variiert . Dies ist im Allgemeinen eine gute Sache, da dadurch die Identität, Kategorie usw. des Objekts bei Änderungen der Besonderheiten der visuellen Eingabe, wie relative Positionen des Betrachters / der Kamera und des Objekts, beibehalten werden.
Das Bild unten enthält viele Ansichten derselben Statue. Sie (und gut ausgebildete neuronale Netze) können erkennen, dass in jedem Bild dasselbe Objekt erscheint, obwohl die tatsächlichen Pixelwerte sehr unterschiedlich sind.
Beachten Sie, dass die Übersetzung hier eine bestimmte Bedeutung im Sehen hat, die aus der Geometrie entlehnt ist. Es bezieht sich nicht auf irgendeine Art der Konvertierung, im Gegensatz zu einer Übersetzung von Französisch nach Englisch oder zwischen Dateiformaten. Stattdessen bedeutet dies, dass jeder Punkt / Pixel im Bild um den gleichen Betrag in die gleiche Richtung verschoben wurde. Alternativ können Sie sich vorstellen, dass der Ursprung um den gleichen Betrag in die entgegengesetzte Richtung verschoben wurde. Zum Beispiel können wir das 2. und 3. Bild in der ersten Reihe aus dem ersten generieren, indem wir jedes Pixel 50 oder 100 Pixel nach rechts verschieben.
Man kann zeigen, dass der Faltungsoperator bezüglich der Übersetzung pendelt. Wenn Sie mit falten , spielt es keine Rolle, ob Sie die gefaltete Ausgabe übersetzen oder ob Sie zuerst oder übersetzen und sie dann falten. Wikipedia hat ein
bisschen mehr .
fgf∗gfg
Ein Ansatz zur übersetzungsinvarianten Objekterkennung besteht darin, eine "Schablone" des Objekts zu erstellen und diese mit jeder möglichen Position des Objekts im Bild zu falten. Wenn Sie an einem Ort eine große Antwort erhalten, deutet dies darauf hin, dass sich an diesem Ort ein Objekt befindet, das der Vorlage ähnelt. Dieser Ansatz wird häufig als Template-Matching bezeichnet .
Invarianz vs. Äquivarianz
Santanu_Pattanayak Antwort ( hier ) weist darauf hin , dass es einen Unterschied zwischen Übersetzung Invarianz und Übersetzung Äquivarianz . Übersetzungsinvarianz bedeutet, dass das System unabhängig von der Verschiebung seiner Eingabe genau die gleiche Antwort ausgibt. Beispielsweise könnte ein Gesichtsdetektor "GESICHT GEFUNDEN" für alle drei Bilder in der oberen Reihe anzeigen. Äquivarianz bedeutet, dass das System in allen Positionen gleich gut funktioniert, aber seine Reaktion ändert sich mit der Position des Ziels. Beispielsweise würde eine Wärmekarte von "Gesichtsein" links, in der Mitte und rechts ähnliche Unebenheiten aufweisen, wenn sie die erste Bildreihe verarbeitet.
Dies ist manchmal ein wichtiger Unterschied, aber viele Leute nennen beide Phänomene "Invarianz", zumal es normalerweise trivial ist, eine äquivariante Antwort in eine invariante umzuwandeln - ignorieren Sie einfach alle Positionsinformationen).