In " Convolutional Deep Believe Networks für skalierbares unbeaufsichtigtes Lernen hierarchischer Repräsentationen " von Lee et. al. ( PDF ) Faltungs-DBNs werden vorgeschlagen. Auch das Verfahren wird zur Bildklassifizierung ausgewertet. Dies klingt logisch, da es natürliche lokale Bildmerkmale wie kleine Ecken und Kanten usw. gibt.
In " Unüberwachtes Feature-Lernen für die Audioklassifizierung unter Verwendung von Faltungs-Deep-Believe-Netzwerken " von Lee et. al. Diese Methode wird für Audio in verschiedenen Klassifizierungsarten angewendet. Sprecheridentifikation, Geschlechtsidentifikation, Telefonklassifizierung und auch einige Musikgenre- / Künstlerklassifizierungen.
Wie kann der Faltungsteil dieses Netzwerks für Audio interpretiert werden, wie es für Bilder als Kanten erklärt werden kann?