Warum ist "Tiefe = semantische Repräsentation" in neuronalen Faltungsnetzen?


8

Ich habe mir online einige Videos über Faltungsnetzwerke angesehen, und der Redner diskutierte das Konzept, einen Filter über ein Bild zu führen.

Er sagte, und es wird auch im Bild unten gezeigt, dass "Tiefe = semantische Darstellung".
Geben Sie hier die Bildbeschreibung ein

Das hört sich gut an, aber ich bin mir nicht sicher, was genau das Besondere an der Reduzierung der räumlichen Dimension des Bildes zugunsten einer größeren Tiefe ist. Was macht Tiefe wichtiger als jede andere Dimension? Eine Dimension ist nur eine Dimension, oder?

EDIT: Ich habe die Vermutung, dass der Grund etwas mit der Unabhängigkeit der Übersetzung zu tun haben wird ...

Antworten:


5

Der Punkt der Schichttiefe und der allmählichen Pyramidenreduzierung besteht darin, eine Hierarchie räumlich invarianter Darstellungen aufzubauen, die jeweils komplexer sind als die der vorherigen Ebenen. Zum Beispiel kann eine Faltung auf der untersten Ebene in der Lage sein, bemerkenswerte Anordnungen von Pixeln herauszusuchen; auf der nächsten Ebene kann es diese zu bestimmten Stellen, Grundformen, Kanten usw. verdichten; dann kann es auf höheren Ebenen immer größere und komplexere Objekte erkennen. Ich werde ein Beispiel aus Gerod M. Bonhoffs These 1 ausleihenüber Hawkins 'Hierarchical Temporal Memory (HTM), ein eng verwandtes Konzept, das auch empfängliche Regionen verwendet, um invariante Repräsentationen zu erstellen. Auf höheren Ebenen ermöglicht der Filterprozess einem Faltungs- oder HTM, einzelne Linien und Formen zu Objekten wie "Hundeschwanz" oder "Hundekopf" zusammenzusetzen. im nächsten Stadium können sie als "Hund" oder vielleicht als eine bestimmte Variante wie "Deutscher Schäferhund" erkannt werden.

Dies wird nicht nur durch das Stapeln mehrerer Schichten ermöglicht, sondern auch durch die Aufteilung der Neuronen in separate Schichten. Die rezeptiven Regionen ahmen tatsächliche neuronale "Zellanordnungen" und kortikale Säulen nach, die lernen, in Gruppen zusammen zu feuern. Dies ermöglicht das Clustering um bestimmte Objekttypen, während die zusätzlichen Ebenen es ermöglichen, sie zu Objekten mit zunehmender Komplexität zusammenzufügen. Die Abnahme der räumlichen Dimensionen in dem von Ihnen zitierten Beispiel spiegelt die Verengung der Empfangsbereiche wider, wenn wir uns die Pyramide hinaufbewegen. Die dritte Dimension (dh die Tiefe innerhalb einer Schicht im Gegensatz zur Tiefe der Schichten) nimmt gleichzeitig zu, so dass wir in jedem Stadium eine größere Auswahl an räumlich invarianten Darstellungen zur Auswahl haben können, d. h. Jeder Filter in der Tiefenabmessung des Ausgabevolumens lernt, etwas anderes zu betrachten. Wenn wir die Pyramide einfach in jeder Phase entlang jeder Dimension verengen würden, hätten wir schließlich nur noch eine begrenzte Auswahl an Objekten zur Auswahl. weit genug genommen, könnte es uns nur einen einzelnen Knoten oben lassen, der eine einzelne Ja-Nein-Wahl zwischen "Ist das ein Hund oder nicht?" widerspiegelt. Dieses flexiblere Design ermöglicht es uns, mehr Kombinationen der räumlich invarianten Darstellungen der vorherigen Ebene auszuwählen. Ich glaube, dass dies auch einem Faltungsnetz ermöglicht, verschiedene Orientierungsprobleme, einschließlich der Unabhängigkeit der Übersetzung, zu berücksichtigen, indem mehr Zellanordnungen / Spalten hinzugefügt werden, um mit jeder Neuorientierung einer invarianten Darstellung fertig zu werden. Schließlich würden wir nur noch eine begrenzte Auswahl an Objekten zur Auswahl haben. weit genug genommen, könnte es uns nur einen einzelnen Knoten oben lassen, der eine einzelne Ja-Nein-Wahl zwischen "Ist das ein Hund oder nicht?" widerspiegelt. Dieses flexiblere Design ermöglicht es uns, mehr Kombinationen der räumlich invarianten Darstellungen der vorherigen Ebene auszuwählen. Ich glaube, dass dies auch einem Faltungsnetz ermöglicht, verschiedene Orientierungsprobleme, einschließlich der Unabhängigkeit der Übersetzung, zu berücksichtigen, indem mehr Zellanordnungen / Spalten hinzugefügt werden, um mit jeder Neuorientierung einer invarianten Darstellung fertig zu werden. Schließlich würden wir nur noch eine begrenzte Auswahl an Objekten zur Auswahl haben. weit genug genommen, könnte es uns nur einen einzelnen Knoten oben lassen, der eine einzelne Ja-Nein-Wahl zwischen "Ist das ein Hund oder nicht?" widerspiegelt. Dieses flexiblere Design ermöglicht es uns, mehr Kombinationen der räumlich invarianten Darstellungen der vorherigen Ebene auszuwählen. Ich glaube, dass dies auch einem Faltungsnetz ermöglicht, verschiedene Orientierungsprobleme, einschließlich der Unabhängigkeit der Übersetzung, zu berücksichtigen, indem mehr Zellanordnungen / Spalten hinzugefügt werden, um mit jeder Neuorientierung einer invarianten Darstellung fertig zu werden. Dieses flexiblere Design ermöglicht es uns, mehr Kombinationen der räumlich invarianten Darstellungen der vorherigen Ebene auszuwählen. Ich glaube, dass dies auch einem Faltungsnetz ermöglicht, verschiedene Orientierungsprobleme, einschließlich der Unabhängigkeit der Übersetzung, zu berücksichtigen, indem mehr Zellanordnungen / Spalten hinzugefügt werden, um mit jeder Neuorientierung einer invarianten Darstellung fertig zu werden. Dieses flexiblere Design ermöglicht es uns, mehr Kombinationen der räumlich invarianten Darstellungen der vorherigen Ebene auszuwählen. Ich glaube, dass dies auch einem Faltungsnetz ermöglicht, verschiedene Orientierungsprobleme, einschließlich der Unabhängigkeit der Übersetzung, zu berücksichtigen, indem mehr Zellanordnungen / Spalten hinzugefügt werden, um mit jeder Neuorientierung einer invarianten Darstellung fertig zu werden.

Wie dieses hervorragende Tutorial bei github erklärt,

Erstens ist die Tiefe des Ausgabevolumens ein Hyperparameter: Sie entspricht der Anzahl der Filter, die wir verwenden möchten, wobei jeder lernt, in der Eingabe nach etwas anderem zu suchen. Wenn beispielsweise die erste Faltungsschicht das Rohbild als Eingabe verwendet, können verschiedene Neuronen entlang der Tiefendimension in Gegenwart verschiedener orientierter Kanten oder Farbkleckse aktiviert werden. Wir werden uns auf eine Reihe von Neuronen beziehen, die alle den gleichen Bereich der Eingabe als Tiefenspalte betrachten (einige Leute bevorzugen auch den Begriff Faser).

Diese Art von Design ist inspiriert von verschiedenen biologisch plausiblen Strukturen, die in tatsächlichen Organismen wie den Augen von Katzen zu finden sind. Wenn das, was ich hier gesagt habe, nicht klar genug ist, um Ihre Frage zu beantworten, kann ich viele weitere Details hinzufügen, einschließlich weiterer Beispiele, von denen einige auf tatsächlichen Organen dieser Art basieren.

1 Siehe S. 26-27, 36 76 Bonhoff, Gerod M., Verwendung des hierarchischen zeitlichen Gedächtnisses zur Erkennung anomaler Netzwerkaktivität. Die Arbeit wurde im März 2008 an die Fakultät des Air Force Institute of Technology der Wright-Patterson Air Force Base in Ohio geliefert.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.