Was sind die Senone in einem Deep Neural Network?


9

Ich lese dieses Papier: Skype-Übersetzer, bei dem CD-DNN-HMMs (kontextabhängige tiefe neuronale Netze mit Hidden-Markov-Modellen) verwendet werden. Ich kann die Idee des Projekts und die Architektur, die sie entworfen haben, verstehen, aber ich verstehe nicht, was die Senone sind . Ich habe nach einer Definition gesucht, aber nichts gefunden

- Wir schlagen ein neuartiges kontextabhängiges (CD) Modell für die Spracherkennung mit großem Wortschatz (LVSR) vor, das die jüngsten Fortschritte bei der Verwendung von Deep-Believe-Netzwerken für die Telefonerkennung nutzt. Wir beschreiben eine vorab trainierte Hybridarchitektur des Deep Neural Network Hidden Markov-Modells (DNN-HMM), die das DNN trainiert, um eine Verteilung über Senone (gebundene Triphone-Zustände) als Ausgabe zu erzeugen

Bitte, wenn Sie mir eine Erklärung dazu geben könnten, würde ich es wirklich schätzen.

BEARBEITEN:

Ich habe diese Definition in diesem Artikel gefunden :

Wir schlagen vor , subphonetic Ereignisse mit Markov Zuständen und zu behandeln , den Zustand , in Laut Hidden - Markov - Modelle wie unsere Grund subphonetic Einheit zu modellieren - Senon . Ein Wortmodell ist eine Verkettung zustandsabhängiger Senone, und Senone können von verschiedenen Wortmodellen gemeinsam genutzt werden.

Ich denke, sie werden im ersten Artikel im Hidden Markov Model-Teil der Architektur verwendet. Sind sie die Staaten des HMM? Die Ausgänge des DNN?


Ein Senon ist ein Spracherkennungsbegriff. Ist das die Definition, nach der Sie suchen, oder eine Klarstellung, wie sie in diesem Artikel modelliert werden?
Sean Easter

Eher wie die Anwendung von dann auf das DNN-HMM. Sie sind die Zustände im HMM, aber auch die Ausgänge des DNN?
Davidivad

1
Dieser Artikel beschreibt Senone im Detail ... cmusphinx.sourceforge.net/wiki/tutorialconcepts
Mike Hunter

Antworten:


7

Das habe ich endlich verstanden:

In dieser Architektur wird der DNN verwendet, um das Rauschen in Telefone umzuwandeln.

In der Phonetik und Linguistik kann sich das Wort Telefon auf jeden Sprachklang oder jede Geste beziehen, die als physisches Ereignis betrachtet wird, ohne Rücksicht auf ihren Platz in der Phonologie einer Sprache.

Geben Sie hier die Bildbeschreibung ein

Die letzte Schicht des DNN wird von allen möglichen Telefonen gebildet, die ein Ausgangsneuron pro Telefon haben. Die Aktivierung dieser Neuronen ist die Wahrscheinlichkeit, dass das Eingangsrauschen diesem Telefon entspricht.

Die Kombination dieser Aktivierungen ist die Eingabe des Hidden-Markov-Modells und legt die Senone des HMM fest, das mithilfe eines Wörterbuchs eine Liste der Kandidatentexte erhält.

Die Senone sind die Zustände des HMM. In der folgenden Abbildung wären die Senone x1 x2 und x3.

Geben Sie hier die Bildbeschreibung ein

Bitte korrigieren Sie mich, wenn ich etwas Falsches gesagt habe, hoffe es hilft!


1
@daviddavid, ich habe eine Antwort hinzugefügt, die etwas klarer erklären sollte, was ein Senon ist. Die ganze Sache mit Senon / akustischer Modellierung ist in der Literatur etwas chaotisch.
Emiswelt

2

In der Spracherkennung wird beim Modellieren eines bestimmten Telefons häufig ein Kontext zu benachbarten Telefonen berücksichtigt. Das bedeutet , dass unser System kennt nicht nur Handys für A, Bund so weiter, sondern hat ein Konzept für E-then-A, O-then-B, X-then-Aund so weiter.

Diese kontextabhängigen Einheiten werden in der Literatur als Senone bezeichnet , was natürlich ein erfundenes Wort ist.

Bei Spracherkennungssystemen entsprechen diese Senone normalerweise den HMM-Zuständen des akustischen Modells, die von einem neuronalen Netzwerk vorhergesagt werden können, wenn ein DNN / HMM-Hybridansatz für die akustische Modellierung verwendet wird.

Der Begriff Senones wurde von den Entwicklern des Janus-Spracherkennungs-Toolkits geprägt. Es wurde dann von Dong Yu und Li Deng für ihr ASR-Buch übernommen. Das war in der Zeit, bevor NNs für die akustische Modellierung verwendet wurden. Daher ist der Begriff verwirrend.


1

"Senones" wurde 1992 von mir benannt. Siehe mein ICASSP 1992-Papier: https://ieeexplore.ieee.org/document/225979 Es ist nur ein ausgefallener Name für eine Gruppe gemeinsamer Markov-Zustände, die ähnliche akustische Ereignisse darstellen. Es kam aus dem Kontrast zu den Fenones von IBM, wo "f" "Rahmen" und mein "s" "Zustand" bedeutet.


Bitte fügen Sie eine vollständige Referenz für Ihren Link hinzu, falls dieser in Zukunft stirbt
Antoine

0

Die ursprüngliche Idee kam von meiner Eurospeech-Arbeit von 1991 (jetzt Interspeech genannt), bei der ich Top-Down-Clustering für Markov-Staaten verwendete. Sie finden meinen CMU-Technologiebericht von 1991 hier: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d

1992 beschloss ich, es auf Tree Clustering umzustellen, damit man auch unsichtbare CD-Telefone modellieren kann.


Bitte fügen Sie eine vollständige Referenz für Ihren Link hinzu, falls dieser in Zukunft stirbt
Antoine
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.