Ich arbeite derzeit daran, die Ergebnisse dieses Papiers neu zu erstellen . In der Arbeit beschreiben sie eine Methode zur Verwendung von CNN zur Merkmalsextraktion und haben ein akustisches Modell, das Dnn-hmm ist und mit RBM vorab trainiert wurde.
Abschnitt III Unterabschnitt A gibt verschiedene Möglichkeiten an, wie die Eingabedaten dargestellt werden können. Ich beschloss, die Spektraldiagramme der statischen, Delta und Delta Deltas vertikal zu stapeln.
Das Papier beschreibt dann, wie das Netzwerk sein sollte. Sie geben an, dass sie ein Faltungsnetzwerk verwenden, aber nichts über die Struktur des Netzwerks?. Wird das Netzwerk immer als Faltungslage bezeichnet? Ich bin mir sicher, dass ich einen Unterschied zu einem gewöhnlichen Faltungsnetzwerk (CNN) sehe.
Das Papier stellt dies in Bezug auf den Unterschied fest:
(aus Abschnitt III Unterabschnitt B)
Eine Faltungslage unterscheidet sich jedoch in zwei wichtigen Aspekten von einer normalen, vollständig verbundenen verborgenen Schicht. Erstens empfängt jede Faltungseinheit nur Eingaben von einem lokalen Bereich der Eingabe. Dies bedeutet, dass jede Einheit einige Merkmale eines lokalen Bereichs der Eingabe darstellt. Zweitens können die Einheiten der Faltungslage selbst in einer Anzahl von Merkmalskarten organisiert werden, wobei alle Einheiten in derselben Merkmalskarte die gleichen Gewichte haben, aber Eingaben von verschiedenen Stellen der unteren Schicht erhalten
Eine andere Sache, die ich mich gefragt habe, ist, ob das Papier tatsächlich angibt, wie viele Ausgabeparameter benötigt werden, um das dnn-hmm-Akustikmodell zu speisen. Ich kann die Anzahl der Filter und Filtergrößen nicht dekodieren. In allgemeinen Details des Netzwerks?