Was ist der Unterschied zwischen "äquivariant zur Übersetzung" und "invariant zur Übersetzung"?


38

Ich habe Probleme, den Unterschied zwischen der Äquivariante zur Übersetzung und der Invariante zur Übersetzung zu verstehen .

In dem Buch Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville und Y. Bengio), findet man in den Faltungsnetzwerken:

  • [...] die besondere Form der Parameterfreigabe bewirkt, dass die Ebene eine Eigenschaft hat, die als Äquivarianz zur Übersetzung bezeichnet wird
  • [...] Pooling hilft dabei, die Darstellung für kleine Übersetzungen der Eingabe ungefähr unveränderlich zu machen

Gibt es einen Unterschied zwischen ihnen oder werden die Begriffe synonym verwendet?


2
In den alten Tagen der Statistik, wie in der Zeit von Pitman, wurde Invariante im Sinne von Äquivariante verwendet.
Xi'an

Antworten:


39

Äquivarianz und Invarianz werden manchmal synonym verwendet. Wie von @ Xi'an hervorgehoben , können Sie in der statistischen Literatur Verwendungen finden, zum Beispiel in Bezug auf die Begriffe des invarianten Schätzers und insbesondere des Pitman-Schätzers .

Ich möchte jedoch erwähnen , dass es besser wäre , wenn beide Begriffe voneinander getrennt halten , als Präfix Ein- in invariant privative wird ( „keine Abweichung“ überhaupt bedeutet), während Gleichge- in äquivariante auf „Variierung verweist in einem ähnlichen oder gleichwertigen Verhältnis ". Mit anderen Worten, einer bewegt sich nicht, der andere tut es .

Gehen wir von einfachen Bildmerkmalen aus und nehmen wir an, dass Bild I ein eindeutiges Maximum m an der Position der räumlichen Pixel (xm,ym) , das hier das Hauptklassifizierungsmerkmal ist. Mit anderen Worten: Ein Bild und alle seine Übersetzungen sind "gleich" . Eine interessante Eigenschaft von Klassifizierern ist ihre Fähigkeit, einige verzerrte Versionen I von I dieselbe Weise zu klassifizieren , beispielsweise Übersetzungen durch alle Vektoren (u,v) .

Der Maximalwert m von I ist invariant : m=m : der Wert ist der gleiche. Während sein Ort bei (xm,ym)=(xmu,ymv) ist und äquivariant ist , was bedeutet, dass er mit der Verzerrung "gleich" variiert .

Die genauen Formulierungen in der Mathematik für Äquivarianz hängen von den Objekten und Transformationen ab, die man betrachtet. Ich bevorzuge hier den Begriff, der in der Praxis am häufigsten verwendet wird (und ich kann die Schuld von einem theoretischen Standpunkt bekommen).

Hier können Übersetzungen (oder eine allgemeinere Aktion) mit der Struktur einer Gruppe G , wobei g ein spezifischer Übersetzungsoperator ist. Eine Funktion oder ein Merkmal f invariant unter G , wenn für alle Bilder in einer Klasse und für jeden g ,

f(g(I))=f(I).

Es wird äquivariant, wenn es eine andere mathematische Struktur oder Aktion (häufig eine Gruppe) G , die die Transformationen in G auf sinnvolle Weise widerspiegelt . Mit anderen Worten, so dass Sie für jedes g ein eindeutiges gG so dass

f(g(I))=g(f(I)).

In dem obigen Beispiel für die Translationsgruppe sind g und g gleich (und daher ist G=G ): Eine ganzzahlige Translation des Bildes spiegelt genau die gleiche Translation des Maximalorts wider.

Eine andere gebräuchliche Definition ist:

f(g(I))=g(f(I)).

Ich habe jedoch möglicherweise unterschiedliche G und G da f(I) und g(I) manchmal nicht in derselben Domäne liegen. Dies geschieht beispielsweise in multivariaten Statistiken (siehe z. B. Äquivarianz- und Invarianzeigenschaften von multivariaten Quantilen und verwandten Funktionen sowie die Rolle der Standardisierung ). Aber hier erlaubt die Eindeutigkeit der Abbildung zwischen g und g , zur ursprünglichen Transformation g .

Oft wird der Begriff Invarianz verwendet, weil das Äquivarianzkonzept unbekannt ist oder jeder andere Invarianz verwendet und Äquivarianz pedantischer erscheint.

Für die Aufzeichnung werden andere verwandte Begriffe (insbesondere in Mathematik und Physik) als Kovarianz , Kontravarianz , differentielle Invarianz bezeichnet .

Darüber hinaus war die Übersetzungsinvarianz, zumindest annähernd oder in Umschlägen, eine Suche nach mehreren Signal- und Bildverarbeitungswerkzeugen. Insbesondere wurden in den letzten 25 Jahren Transformationen mit mehreren Raten (Filterbänke) und mehreren Maßstäben (Wavelets oder Pyramiden) entworfen, zum Beispiel unter dem Deckmantel von verschiebungsinvarianten, zyklusspinnenden, stationären, komplexen Doppelbäumen Wavelet-Transformationen (für eine Übersicht über 2D-Wavelets: Ein Panorama auf mehrskaligen geometrischen Darstellungen ). Die Wavelets können einige diskrete Skalenvariationen absorbieren. Alle diese (ungefähren) Invarianzen gehen oft mit dem Preis der Redundanz der Anzahl transformierter Koeffizienten einher. Es ist jedoch wahrscheinlicher, dass sie verschiebungsinvariante oder verschiebungsäquivariante Merkmale liefern.


4
Groß! Ich bewundere Ihre Bemühungen für die ausführliche Antwort @Laurent Duval
Aamir

24

Die Begriffe sind unterschiedlich:

  • Äquivariant zur Übersetzung bedeutet, dass eine Übersetzung von Eingabe-Features zu einer äquivalenten Übersetzung von Ausgaben führt. Wenn also Ihr Muster 0,3,2,0,0 am Eingang zu 0,1,0,0 am Ausgang führt, kann das Muster 0,0,3,2,0 zu 0,0,1 führen. 0

  • Unveränderlich gegenüber der Übersetzung bedeutet, dass eine Übersetzung von Eingabe-Features die Ausgaben überhaupt nicht verändert. Wenn also Ihr Muster 0,3,2,0,0 am Eingang zu 0,1,0 am Ausgang führt, würde das Muster 0,0,3,2,0 ebenfalls zu 0,1,0 führen

Damit Feature-Maps in Faltungsnetzwerken nützlich sind, benötigen sie in der Regel beide Eigenschaften in einem gewissen Gleichgewicht. Die Äquivarianz ermöglicht es dem Netzwerk, die Erkennung von Kanten, Texturen und Formen an verschiedenen Orten zu verallgemeinern. Durch die Invarianz spielt die genaue Lokalisierung der erkannten Merkmale eine geringere Rolle. Dies sind zwei sich ergänzende Verallgemeinerungsarten für viele Bildverarbeitungsaufgaben.


Das übersetzte Feature liefert die übersetzte Ausgabe auf einer Ebene. Bitte erläutern Sie, ob ein erheblich übersetzter ganzer Gegenstand erkannt wird. Scheint, es wird erkannt, auch wenn CNN nicht mit Bildern mit unterschiedlichen Positionen trainiert wurde? Gilt in diesem Fall die Äquivarianz (ähnelt eher der Invarianz)?
VladimirLenin

@VladimirLenin: Ich glaube nicht, dass für diese Frage eine Ausarbeitung erforderlich ist, es ist definitiv nichts, was das OP hier gefragt hat. Ich schlage vor, Sie stellen eine separate Frage, wenn möglich mit einem konkreten Beispiel. Selbst wenn visuell ein "ganzes Objekt" übersetzt wurde, bedeutet dies nicht, dass Feature-Maps in einem CNN genau das verfolgen, was Sie erwarten.
Neil Slater

4

Füge nur meine 2 Cent hinzu

In Bezug auf eine Bildklassifizierungsaufgabe, die mit einer typischen CNN-Architektur gelöst wurde, die aus einem Backend (Convolutions + NL + möglicherweise Spatial Pooling), das Repräsentationslernen ausführt, und einem Frontend (z. B. Fully Connected Layers, MLP) besteht, das die spezifische Aufgabe löst, in diesem Fall Bild Klassifizierung ist die Idee, eine Funktion zu bauen f:ichL in der Lage, von der Spatial Domain zu kartieren ich (Eingabebild) in die semantische Domäne L (Label Set) in einem 2-Schritt-Prozess, der ist

  • Backend (Representation Learning): f:ichL ordnet die Eingabe dem latenten semantischen Raum zu
  • Frontend (aufgabenspezifischer Solver): f:LL Karten vom latenten semantischen Raum bis zum endgültigen Etikettenraum

und es wird unter Verwendung der folgenden Eigenschaften durchgeführt

  • räumliche Äquivarianz in Bezug auf ConvLayer (räumliche 2D-Faltung + NonLin, z. B. ReLU), da eine Verschiebung der Ebeneneingabe eine Verschiebung der Ebenenausgabe bewirkt (Hinweis: Es geht um die Ebene, nicht um den einzelnen Faltungsoperator)
  • räumliche Invarianz in Bezug auf den Pooling-Operator (z. B. Max. Pooling überschreitet den Maximalwert in seinem Empfangsfeld unabhängig von seiner räumlichen Position)

Je näher an der Eingabeebene, desto näher an der rein räumlichen Domäne ich und umso wichtiger die räumliche Äquivarianzeigenschaft, die es ermöglicht, räumlich äquivariante hierarchische (zunehmend) semantische Repräsentationen zu erstellen

Je näher am Frontend, desto näher an der latenten, rein semantischen Domäne L und je wichtiger es ist, dass die räumliche Invarianz als spezifische Bedeutung des Bildes unabhängig von den räumlichen Positionen der Merkmale ist

Durch die Verwendung vollständig verbundener Ebenen im Frontend wird der Klassifizierer abhängig von der Backend-Struktur in gewissem Maße empfindlich gegenüber der Feature-Position: Je tiefer die Ebene ist und je mehr der Übersetzungsinvarianten-Operator (Pooling) verwendet wird

In Quantifying Translation-Invariance in Convolutional Neural Networks wurde gezeigt, dass es zur Verbesserung der CNN Classifier Translation Invariance effektiver ist, auf den Datensatz Bias (Data Augmentation) einzuwirken, anstatt auf den induktiven Bias (Architektur, Tiefe, Pooling, ...) einzuwirken )

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.