Sollten tiefe Restnetzwerke als ein Ensemble von Netzwerken betrachtet werden?


12

Die Frage betrifft die Architektur von Deep Residual Networks ( ResNets ). Das Modell, das den 1. Platz bei der "Large Scale Visual Recognition Challenge 2015" (ILSVRC2015) in allen fünf Hauptstrecken gewann:

Diese Arbeit wird im folgenden Artikel beschrieben:

Tiefes Restlernen für die Bilderkennung (2015, PDF)


Microsoft Research Team (Entwickler von ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) in ihrem Artikel:

" Identitätszuordnungen in tiefen Restnetzwerken (2016) "

Geben Sie an, dass die Tiefe eine Schlüsselrolle spielt:

" Wir erhalten diese Ergebnisse über ein einfaches, aber wesentliches Konzept - tiefer gehen. Diese Ergebnisse zeigen das Potenzial, die Grenzen der Tiefe zu überschreiten. "

Es wird auch in ihrer Präsentation betont (tiefer - besser):

- "Ein tieferes Modell sollte keinen höheren Trainingsfehler aufweisen."
- "Deeper ResNets haben einen geringeren Trainingsfehler und auch einen geringeren Testfehler."
- "Tiefere ResNets haben einen geringeren Fehler."
- "Alle profitieren mehr von tieferen Funktionen - kumulativen Gewinnen!"
- "Tiefer ist noch besser."

Hier ist die Struktur des 34-Schicht-Residuums (als Referenz): Geben Sie hier die Bildbeschreibung ein


Aber kürzlich habe ich eine Theorie gefunden, die eine neuartige Interpretation von Restnetzwerken einführt und zeigt, dass es sich um exponentielle Ensembles handelt:

Restnetzwerke sind exponentielle Ensembles relativ flacher Netzwerke (2016)

Deep Resnets werden als viele flache Netzwerke beschrieben, deren Ausgänge in verschiedenen Tiefen zusammengefasst sind. Der Artikel enthält ein Bild. Ich füge es mit Erklärung bei:

Geben Sie hier die Bildbeschreibung einRestnetzwerke werden herkömmlicherweise als (a) gezeigt, was eine natürliche Darstellung von Gleichung (1) ist. Wenn wir diese Formulierung auf Gleichung (6) erweitern, erhalten wir eine enträtselte Ansicht eines 3-Block-Restnetzwerks (b). Aus dieser Ansicht ist ersichtlich, dass Restnetzwerke implizite O (2 ^ n) -Pfade haben, die Eingabe und Ausgabe verbinden, und dass das Hinzufügen eines Blocks die Anzahl der Pfade verdoppelt.

Zum Abschluss des Artikels heißt es:

Es ist nicht die Tiefe, sondern das Ensemble, das die verbleibenden Netzwerke stark macht . Verbleibende Netzwerke überschreiten die Grenzen der Netzwerkvielfalt, nicht der Netzwerktiefe. Unsere vorgeschlagene entwirrte Ansicht und die Läsionsstudie zeigen, dass Restnetzwerke ein implizites Ensemble exponentiell vieler Netzwerke sind. Wenn die meisten Pfade, die zum Gradienten beitragen, im Vergleich zur Gesamttiefe des Netzwerks sehr kurz sind, kann eine erhöhte Tiefe allein nicht das Hauptmerkmal von Restnetzwerken sein. Wir glauben jetzt, dass die Vielfalt , die Ausdruckbarkeit des Netzwerks in Bezug auf die Anzahl der Pfade, eine Schlüsselrolle spielt .

Es ist jedoch nur eine neuere Theorie, die bestätigt oder widerlegt werden kann. Es kommt manchmal vor, dass einige Theorien widerlegt und Artikel zurückgezogen werden.


Sollten wir uns deep ResNets doch als Ensemble vorstellen? Ensemble oder Tiefe machen Restnetzwerke so stark? Ist es möglich, dass selbst die Entwickler selbst nicht richtig erkennen, was ihr eigenes Modell darstellt und was das Schlüsselkonzept darin ist?

Antworten:


4

Stellen Sie sich vor, ein Geist gewährt Ihnen drei Wünsche. Da Sie ein ehrgeiziger Deep-Learning-Forscher sind, ist Ihr erster Wunsch eine perfekte Lösung für ein 1000-Layer-NN für Image Net, das sofort auf Ihrem Laptop angezeigt wird.

Eine genieinduzierte Lösung gibt Ihnen keine Vorstellung davon, wie sie als Ensemble interpretiert werden könnte. Glauben Sie jedoch wirklich, dass Sie 1000 Abstraktionsebenen benötigen, um eine Katze von einem Hund zu unterscheiden? Wie die Autoren des "Ensemble Papers" selbst erwähnen, gilt dies definitiv nicht für biologische Systeme.

Natürlich könnten Sie Ihren zweiten Wunsch mit einer Zerlegung der Lösung in ein Ensemble von Netzwerken verschwenden, und ich bin mir ziemlich sicher, dass der Geist dies tun könnte. Der Grund dafür ist, dass ein Teil der Kraft eines tiefen Netzwerks immer vom Ensemble-Effekt herrührt.

Es ist daher nicht verwunderlich, dass zwei sehr erfolgreiche Tricks zum Trainieren tiefer Netzwerke, Dropout- und Residual-Netzwerke, sofort als implizites Ensemble interpretiert werden. Deshalb erscheint mir "es ist nicht die Tiefe, sondern das Ensemble" als falsche Zweiteilung. Sie würden das wirklich nur sagen, wenn Sie ehrlich glauben, dass Sie Hunderte oder Tausende von Abstraktionsebenen benötigen, um Bilder mit menschlicher Genauigkeit zu klassifizieren.

Ich schlage vor, Sie verwenden den letzten Wunsch für etwas anderes, vielleicht eine Pinakolada.


0

Zufällige Restnetzwerke für viele Nichtlinearitäten wie Tanh leben am Rande des Chaos, da der Kosinusabstand zweier Eingangsvektoren eher zu einem festen Punkt mit einer Polynomrate als zu einer Exponentialrate konvergiert, wie dies bei Vanille-Tanh-Netzwerken der Fall ist. Somit wird ein typisches Restnetzwerk langsam die stabil-chaotische Grenze mit der Tiefe überschreiten und für viele Schichten um diese Grenze schweben. Grundsätzlich „vergisst“ es die Geometrie des Eingaberaums nicht „sehr schnell“. Selbst wenn wir sie erheblich vertiefen, funktionieren sie besser in den Vanille-Netzwerken.

Weitere Informationen zur Verbreitung von Informationen in Restnetzwerken - Mean Field Residual Networks: Am Rande des Chaos

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.