Faltungsnetze (Convolutional Nets, CNN) basieren auf mathematischen Faltungen (z. B. 2D- oder 3D-Faltungen), die üblicherweise für die Signalverarbeitung verwendet werden. Bilder sind eine Art Signal, und Faltung kann gleichermaßen für Schall, Vibrationen usw. verwendet werden. Im Prinzip können CNNs also für jedes Signal und wahrscheinlich auch für mehr Anwendungen finden.
In der Praxis gibt es bereits Arbeiten zu NLP (wie von Matthew Graves erwähnt), bei denen einige Leute Text mit CNNs verarbeiten und nicht mit rekursiven Netzwerken. Einige andere Arbeiten beziehen sich auf die Tonbearbeitung (hier kein Hinweis, aber ich habe noch nicht veröffentlichte Arbeiten im Gange).
Ursprünglicher Inhalt: In Antwort auf die ursprüngliche Titelfrage, die sich jetzt geändert hat. Vielleicht muss man diesen löschen .
Untersuchungen über gegnerische Netzwerke (und verwandte Netzwerke) zeigen, dass selbst tiefe Netzwerke leicht getäuscht werden können , so dass sie einen Hund (oder ein beliebiges Objekt) in scheinbar zufälligem Rauschen sehen, wenn ein Mensch es betrachtet (der Artikel enthält klare Beispiele).
Ein weiteres Problem ist die Generalisierungskraft eines neuronalen Netzwerks. Faltungsnetze haben die Welt mit ihrer Fähigkeit, viel besser als andere Techniken zu verallgemeinern, verblüfft. Wenn das Netzwerk jedoch nur mit Bildern von Katzen gefüttert wird, erkennt es nur Katzen (und sieht wahrscheinlich überall Katzen, wie dies durch die Ergebnisse des gegnerischen Netzwerks der Fall ist). Mit anderen Worten, es fällt selbst CNs schwer, zu weit über das hinaus zu generalisieren, woraus sie gelernt haben.
Die Erkennungsgrenze ist schwer genau zu definieren. Ich würde einfach sagen, dass die Vielfalt der Lerndaten die Grenze überschreitet (ich gehe davon aus, dass weitere Details zu einem geeigneteren Diskussionsort führen sollten).