Was ist der grundlegende Unterschied zwischen CNN und RNN?

10

Was ist der grundlegende Unterschied zwischen Faltungs-Neuronalen Netzen und wiederkehrenden Neuronalen Netzen? Wo werden sie angewendet?

— Pradeep BV
quelle

Stellen Sie sich RNN / CNN besser nicht als unterschiedliche Netzwerke vor, sondern als unterschiedliche Netzwerkfunktionen: Ein Netzwerk kann zustandslos oder zustandsbehaftet sein (als RNN, LSTM, tief); Ein Netzwerk kann / kann keine räumlichen Operatoren haben (als 2D-Faltung wie CNN). ...

— Pasaba por Aqui

7

Grundsätzlich speichert ein CNN eine Reihe von Gewichten und wendet sie räumlich an. Zum Beispiel könnte ich in einer Ebene 32 Sätze von Gewichten haben (auch Feature-Maps genannt). Jeder Satz von Gewichten ist ein 3x3-Block, was bedeutet, dass ich 3x3x32 = 288 Gewichte für diese Ebene habe. Wenn Sie mir ein Eingabebild für jede 3x3-Karte gegeben haben, schiebe ich es über alle Pixel im Bild und multipliziere die Regionen miteinander. Ich wiederhole dies für alle 32 Feature-Maps und gebe die Ausgaben weiter. Also lerne ich ein paar Gewichte, die ich an vielen Orten anwenden kann.

Bei einem RNN handelt es sich um eine Reihe von Gewichten, die zeitlich (über die Zeit) angewendet werden. Eine Eingabe kommt herein und wird mit dem Gewicht multipliziert. Das Netzwerk speichert einen internen Zustand und gibt eine Art Ausgabe aus. Dann kommt das nächste Datenelement herein und wird mit dem Gewicht multipliziert. Der interne Status, der aus dem letzten Datenelement erstellt wurde, wird jedoch ebenfalls eingegeben und mit einem anderen Gewicht multipliziert. Diese werden addiert und die Ausgabe stammt von einer Aktivierung, die auf die Summe angewendet wird, multipliziert mit einem anderen Gewicht. Der interne Status wird aktualisiert und der Vorgang wiederholt.

CNNs Arbeit ist wirklich gut für Computer Vision. Auf den niedrigen Ebenen möchten Sie häufig Dinge wie vertikale und horizontale Linien finden. Diese Art von Dingen wird überall auf den Bildern zu finden sein, daher ist es sinnvoll, Gewichte zu haben, die Sie überall in den Bildern anwenden können.

RNNs sind wirklich gut für die Verarbeitung natürlicher Sprache. Sie können sich vorstellen, dass das nächste Wort in einem Satz stark von den vorhergehenden beeinflusst wird. Daher ist es sinnvoll, diesen internen Zustand fortzuführen und eine kleine Menge von Gewichten zu verwenden, die für jede Eingabe gelten können.

Es gibt jedoch viel mehr Anwendungen. Darüber hinaus haben CNNs bei NLP-Aufgaben gute Leistungen erbracht. Es gibt auch fortgeschrittenere Versionen von RNNs namens LSTMs, die Sie ausprobieren können.

Eine Erklärung der CNNs finden Sie im Stanford CS231n-Kurs . Schauen Sie sich besonders Vorlesung 5 an. Auf YouTube gibt es Videos der ganzen Klasse.

Eine Erklärung der RNNs finden Sie hier .

— pshlady
quelle

IMHO, das ist eine ziemlich verwirrende Erklärung.

— nbro

5

Wiederkehrende neuronale Netze (RNNs) sind künstliche neuronale Netze (ANNs), die eine oder mehrere wiederkehrende (oder zyklische) Verbindungen aufweisen, anstatt nur Feed-Forward-Verbindungen wie ein Feed-Forward-Neuronales Netzwerk (FFNN) zu haben.

Diese zyklischen Verbindungen werden verwendet, um zeitliche Beziehungen oder Abhängigkeiten zwischen den Elementen einer Sequenz zu verfolgen. Daher sind RNNs für die Sequenzvorhersage oder verwandte Aufgaben geeignet.

In der Abbildung unten sehen Sie links eine RNN (die nur eine versteckte Einheit enthält), die der RNN rechts entspricht, bei der es sich um die "entfaltete" Version handelt. Zum Beispiel können wir das beobachten $\bf h_1$ (Die versteckte Einheit im Zeitschritt $t=1$ ) empfängt beide eine Eingabe $\bf x_1$ und der Wert der versteckten Einheit im vorherigen Zeitschritt, d. h. $\bf h_0$ .

Die zyklischen Verbindungen (oder die Gewichte der zyklischen Kanten) werden wie die Vorwärtskopplungsverbindungen unter Verwendung eines Optimierungsalgorithmus (wie Gradientenabstieg) gelernt, der häufig mit einer Rückausbreitung kombiniert wird (die zur Berechnung des Gradienten der Verlustfunktion verwendet wird). .

Faltungs neuronale Netze (CNNs) sind ANNs die eine oder mehrere durchführen Faltung (oder Kreuzkorrelation , gefolgt von einem) Operationen (oft Downsampling - Betrieb).

Die Faltung ist eine Operation, die zwei Funktionen übernimmt: $\bf f$ und $\bf h$ als Eingabe und erzeugt eine dritte Funktion, $\bf g = f \circledast h$ , wo das Symbol $\circledast$ bezeichnet die Faltungsoperation. Im Kontext von CNNs die Eingabefunktion $\bf f$ kann zB ein Bild sein (das als Funktion von 2D-Koordinaten bis zu RGB- oder Graustufenwerten betrachtet werden kann). Die andere Funktion $\bf h$ wird als "Kernel" (oder Filter) bezeichnet, der als (kleine und quadratische) Matrix (die die Ausgabe der Funktion enthält) betrachtet werden kann $\bf h$ ). $\bf f$ kann auch als (große) Matrix betrachtet werden (die für jede Zelle z. B. ihren Graustufenwert enthält).

Im Zusammenhang mit CNNs kann die Faltungsoperation als Punktprodukt zwischen dem Kernel betrachtet werden $\bf h$ (eine Matrix) und mehrere Teile der Eingabe (eine Matrix).

Im Bild unten führen wir eine elementweise Multiplikation zwischen dem Kernel durch $\bf h$ und ein Teil der Eingabe $\bf h$ Dann addieren wir die Elemente der resultierenden Matrix, und das ist der Wert der Faltungsoperation für diesen bestimmten Teil der Eingabe.

Um genauer zu sein, führen wir im obigen Bild die folgende Operation aus

\begin{aligned} \sum_{ich j} ([\begin{matrix} 1 & 0 & 0 \\ 1 & 1 & 0 \\ 1 & 1 & 1 \end{matrix}]] \otimes [\begin{matrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{matrix}]]) = \sum_{ich j} [\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{matrix}]] = 4 \end{aligned}

$\begin{align} \sum_{ij} \left( \begin{bmatrix} 1 & 0 & 0\\ 1 & 1 & 0\\ 1 & 1 & 1 \end{bmatrix} \otimes \begin{bmatrix} 1 & 0 & 1\\ 0 & 1 & 0\\ 1 & 0 & 1 \end{bmatrix} \right) = \sum_{ij} \begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0\\ 1 & 0 & 1 \end{bmatrix} = 4 \end{align}$

wo $\otimes$ ist die elementweise Multiplikation und die Summation $\sum_{ij}$ ist über alle Zeilen $i$ und Spalten $j$ (der Matrizen).

Um alle Elemente von zu berechnen $\bf g$ können wir an den Kernel denken $\bf h$ als über die Matrix geschoben $\bf f$ .

Im Allgemeinen funktioniert der Kernel $\bf h$ kann behoben werden. Im Kontext von CNNs ist jedoch der Kernel $\bf h$ stellt die lernbaren Parameter des CNN dar: mit anderen Worten, während des Trainingsvorgangs (z. B. unter Verwendung von Gradientenabstieg und Rückausbreitung) dieser Kernel $\bf h$ (was somit als eine Matrix von Gewichten betrachtet werden kann) ändert sich.

Im Kontext von CNNs gibt es oft mehr als einen Kernel: Mit anderen Worten, es ist oft der Fall, dass eine Folge von Kerneln $\bf h_1, h_2, \dots, h_k$ wird angewendet auf $\bf f$ eine Folge von Windungen zu erzeugen $\bf g_1, g_2, \dots, g_k$ . Jeder Kernel $\bf h_i$ wird verwendet, um "verschiedene Merkmale der Eingabe zu erkennen", so dass sich diese Kernel voneinander unterscheiden.

Ein Downsampling- Vorgang ist ein Vorgang, bei dem die Eingabegröße reduziert wird, während versucht wird, so viele Informationen wie möglich beizubehalten. Zum Beispiel, wenn die Eingabegröße a ist $2 \times 2$ Matrix $\bf f = \begin{bmatrix} 1 & 2 \\ 3 & 0 \end{bmatrix}$ Eine übliche Down-Sampling-Operation wird als Max-Pooling bezeichnet , was im Fall von $\bf f$ , kehrt zurück $3$ (das maximale Element von $\bf f$ ).

CNNs eignen sich besonders für hochdimensionale Eingaben (z. B. Bilder), da sie im Vergleich zu FFNNs eine geringere Anzahl lernbarer Parameter verwenden (die im Kontext von CNNs die Kernel sind). Sie werden daher häufig verwendet, um beispielsweise Bilder zu klassifizieren.

Was ist der grundlegende Unterschied zwischen RNNs und CNNs? RNNs haben wiederkehrende Verbindungen, während CNNs diese nicht unbedingt haben. Die Grundoperation eines CNN ist die Faltungsoperation, die in einem Standard-RNN nicht vorhanden ist.

— nbro
quelle

2

CNN gegen RNN

Ein CNN lernt, Muster im gesamten Raum zu erkennen, während RNN zur Lösung zeitlicher Datenprobleme nützlich ist.
CNNs sind zur bevorzugten Methode zur Lösung von Bilddatenproblemen geworden, während RNN ideal für die Text- und Sprachanalyse verwendet wird.
Auf sehr allgemeine Weise lernt ein CNN, Komponenten eines Bildes (z. B. Linien, Kurven usw.) zu erkennen und diese Komponenten dann zu kombinieren, um größere Strukturen (z. B. Gesichter, Objekte usw.) während einer RNN zu erkennen wird in ähnlicher Weise lernen, Muster im Laufe der Zeit zu erkennen. Ein RNN, der darauf trainiert ist, Sprache in Text umzuwandeln, sollte daher zuerst die Funktionen auf niedriger Ebene wie Zeichen, dann Funktionen auf höherer Ebene wie Phoneme und dann die Worterkennung in Audioclips lernen.

CNN
Ein Faltungsnetzwerk (ConvNet) besteht aus Schichten. In einem Faltungsnetzwerk (ConvNet) gibt es grundsätzlich drei Arten von Schichten:

Faltungsschicht
Pooling-Schicht
Vollständig verbundene Schicht

Von diesen wendet die Faltungsschicht eine Faltungsoperation auf den eingegebenen 3D-Tensor an. Verschiedene Filter extrahieren verschiedene Arten von Merkmalen aus einem Bild. Das folgende GIF veranschaulicht diesen Punkt sehr gut:

Faltungsfilter in ConvNets

Hier ist der Filter die grüne 3x3-Matrix, während das Bild die blaue 7x7-Matrix ist.

Viele solcher Schichten durchlaufen Filter in CNN, um eine Ausgangsschicht zu erhalten, die wiederum eine vollständig verbundene NN-Schicht oder ein 3D-Tensor sein kann.

CNN

Im obigen Beispiel durchläuft das Eingabebild beispielsweise die Faltungsschicht, dann die Poolschicht, dann die Faltungsschicht, die Poolschicht, dann wird der 3D-Tensor wie eine 1D-Schicht des neuronalen Netzwerks abgeflacht, dann zu einer vollständig verbundenen Schicht und schließlich zu einer Softmax-Schicht. Dies macht eine CNN.

RNN
Recurrent Neural Network (RNN) ist eine Art neuronales Netzwerk, bei dem die Ausgabe des vorherigen Schritts als Eingabe in den aktuellen Schritt eingespeist wird.

RNN-Modell

Hier, $x_{t-1}$ ,,, $x_{t}$ und $x_{t+1}$ sind die Werte von Eingabedaten, die zu bestimmten Zeitschritten auftreten und in die RNN eingespeist werden, die nämlich durch die verborgenen Schichten geht $h_{t-1}$ ,,, $h_{t}$ und $h_{t+1}$ was weiter Ausgabe erzeugt $o_{t-1}$ ,,, $o_{t}$ und $o_{t+1}$ beziehungsweise.

— Aishwarya Radhakrishnan
quelle

0

Grundsätzlich ist ein RNN ein neuronales Netzwerk, dessen nächster Zustand von seinen früheren Zuständen abhängt, während ein CNN ein neuronales Netzwerk ist, das durch Faltung eine Dimensionsreduktion (Verkleinerung großer Daten unter Beibehaltung von Informationen) durchführt. Sehen Sie diese für weitere Informationen auf Faltungen

— kc sayz 'kc sayz'
quelle

Das ist irreführend. CNNs werden nicht ausschließlich zur Reduzierung der Dimensionalität verwendet. Darüber hinaus ist es die Downsampling-Operation, die die Abmessungen des Eingangs reduziert (nicht unbedingt die Faltung).

— nbro

0

Wenn beide auf die natürliche Sprache angewendet werden, können CNNs lokale und positionsinvariante Merkmale gut extrahieren, erfassen jedoch keine semantischen Abhängigkeiten mit großer Reichweite. Es werden nur lokale Schlüsselphrasen berücksichtigt.

Wenn also das Ergebnis durch den gesamten Satz oder eine weitreichende semantische Abhängigkeit bestimmt wird, ist CNN nicht effektiv, wie in diesem Artikel gezeigt, in dem die Autoren beide Architekturen auf NLP-Aufnahmen verglichen haben.

Dies kann für den allgemeinen Fall erweitert werden.

— Firas Omrane
quelle