Ich lerne etwas über HMMs und ihre Anwendungen und versuche, ihre Verwendung zu verstehen. Mein Wissen ist ein bisschen fleckig, also korrigieren Sie bitte alle falschen Annahmen, die ich mache. Das spezifische Beispiel, über das ich mich wundere, ist die Verwendung von HMMs zur Spracherkennung, was in der Literatur ein häufiges Beispiel ist.
Die grundlegende Methode scheint darin zu bestehen, die eingehenden Töne (nach der Verarbeitung) als Beobachtungen zu behandeln, wobei die tatsächlich gesprochenen Wörter die verborgenen Zustände des Prozesses sind. Es scheint offensichtlich, dass die versteckten Variablen hier nicht unabhängig sind, aber ich verstehe nicht, wie sie die Markov-Eigenschaft erfüllen. Ich würde mir vorstellen, dass die Wahrscheinlichkeit des N-ten Wortes nicht nur vom N-1-Wort abhängt, sondern von vielen vorhergehenden Wörtern davor.
Wird dies einfach als vereinfachende Annahme ignoriert, weil HMMs Spracherkennungsprobleme sehr gut korrekt modellieren können, oder verstehe ich die Zustände und versteckten Variablen im Prozess nicht klar? Das gleiche Problem scheint für viele Anwendungen zu gelten, bei denen HMMs sehr beliebt sind, POS-Tagging und so weiter.