Was ist der Unterschied zwischen Inception v2 und Inception v3?


18

Das Paper Going Deeper With Convolutions beschreibt GoogleNet, das die ursprünglichen Inception-Module enthält:

Bildbeschreibung hier eingeben

Die Änderung zu Inception v2 bestand darin, dass sie die 5x5-Faltungen durch zwei aufeinanderfolgende 3x3-Faltungen ersetzten und Pooling anwendeten:

Bildbeschreibung hier eingeben

Was ist der Unterschied zwischen Inception v2 und Inception v3?


Ist es einfach eine Batch-Normalisierung? Oder verfügt Inception v2 bereits über eine Batch-Normalisierung?
Martin Thoma

github.com/SKKSaikia/CNN-GoogLeNet Dieses Repository enthält alle Versionen von GoogLeNet und deren Unterschiede. Versuche es.
Amartya Ranjan Saikia

Antworten:


22

In der Veröffentlichung Batch Normalization , Sergey et al., 2015. vorgeschlagen Inception-v1 - Architektur , die eine Variante die ist GoogleNet in dem Papier Tiefer mit Faltungen , und in der Zwischenzeit sie eingeführt Batch Normalisierungs zu Inception (BN-Inception).

Der Hauptunterschied zu dem in (Szegedy et al., 2014) beschriebenen Netzwerk besteht darin, dass die 5 × 5-Faltungsschichten durch zwei aufeinanderfolgende Schichten von 3 × 3-Faltungen mit bis zu 128 Filtern ersetzt werden.

Und in dem Aufsatz Überdenken der Inception-Architektur für Computer Vision schlugen die Autoren Inception-v2 und Inception-v3 vor.

In Inception-v2 führten sie die Faktorisierung (Faktorisierung von Windungen in kleinere Windungen) und einige geringfügige Änderungen in Inception-v1 ein.

Beachten Sie, dass wir die traditionelle 7x7-Faltung in drei 3x3-Faltungen zerlegt haben

Wie für Auflegungs-v3 , ist es eine Variante des Auflegungs-V2 , die BN-Hilfshinzufügt.

BN Auxiliary bezieht sich auf die Version, in der die vollständig verbundene Schicht des Auxiliary-Klassifikators ebenfalls normalisiert ist, nicht nur die Faltungen. Wir bezeichnen das Modell [Inception-v2 + BN Auxiliary] als Inception-v3.


3

neben dem, was von daoliker erwähnt wurde

Inception v2 verwendete trennbare Faltung als erste Tiefenschicht 64

Zitat aus Papier

Unser Modell verwendete eine trennbare Faltung mit dem Tiefenmultiplikator 8 auf der ersten Faltungsschicht. Dies reduziert die Rechenkosten und erhöht gleichzeitig den Speicherverbrauch während des Trainings.

warum ist das wichtig weil es in v3 und v4 sowie in inception resnet gelöscht, aber später wieder eingeführt und in mobilenet stark genutzt wurde .


1

Die Antwort finden Sie im Artikel "Going deeper with convolutions": https://arxiv.org/pdf/1512.00567v3.pdf

Überprüfen Sie Tabelle 3. Inception v2 ist die Architektur, die im Artikel Mit Windungen tiefer gehen beschrieben wird. Inception v3 ist dieselbe Architektur (geringfügige Änderungen) mit unterschiedlichen Trainingsalgorithmen (RMSprop, Label Smoothing Regularizer, Hinzufügen eines Zusatzkopfs mit Batch-Norm zur Verbesserung des Trainings usw.).


1

Tatsächlich scheinen die obigen Antworten falsch zu sein. In der Tat war es ein großes Durcheinander mit der Namensgebung. Es scheint jedoch, dass es in dem Artikel, der Inception-v4 einführt, behoben wurde (siehe: "Inception-v4, Inception-ResNet und die Auswirkungen der verbleibenden Verbindungen auf das Lernen"):

Die Inception Deep Convolutional-Architektur wurde als GoogLeNet in (Szegedy et al. 2015a) eingeführt, hier Inception-v1 genannt. Später wurde die Inception-Architektur auf verschiedene Arten verfeinert, zunächst durch die Einführung der Batch-Normalisierung (Ioffe und Szegedy 2015) (Inception-v2). Später durch zusätzliche Faktorisierungsideen in der dritten Iteration (Szegedy et al. 2015b), die in diesem Bericht als Inception-v3 bezeichnet werden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.