Ein CNN lernt, Muster im Raum zu erkennen. Ein CNN lernt also, wie Sie sagen, Komponenten eines Bildes (z. B. Linien, Kurven usw.) zu erkennen und diese Komponenten dann zu kombinieren, um größere Strukturen (z. B. Gesichter, Objekte usw.) zu erkennen.
Man kann ganz allgemein sagen, dass ein RNN in ähnlicher Weise lernt, Muster im Laufe der Zeit zu erkennen. Ein RNN, der für die Übersetzung von Text geschult ist, kann also lernen, dass "Hund" anders übersetzt werden sollte, wenn das Wort "heiß" vorangestellt wird.
Der Mechanismus, nach dem die beiden Arten von NN diese Muster darstellen, ist jedoch unterschiedlich. Bei einer CNN suchen Sie in allen Unterfeldern des Bildes nach denselben Mustern. Bei einem RNN füttern Sie (im einfachsten Fall) die verborgenen Ebenen aus dem vorherigen Schritt als zusätzliche Eingabe in den nächsten Schritt. Während das RNN in diesem Prozess Speicher aufbaut, sucht es nicht in der gleichen Weise nach denselben Mustern über verschiedene Zeitscheiben wie ein CNN nach denselben Mustern über verschiedene Regionen des Raums.
Ich sollte auch beachten, dass wenn ich hier "Zeit" und "Raum" sage, es nicht zu wörtlich genommen werden sollte. Sie könnten zum Beispiel eine RNN für ein einzelnes Bild zur Bildunterschrift ausführen, und die Bedeutung von "Zeit" wäre einfach die Reihenfolge, in der verschiedene Teile des Bildes verarbeitet werden. Zu Beginn bearbeitete Objekte informieren also über die Beschriftung später bearbeiteter Objekte.