Was verborgen ist und was beobachtet wird
Das, was in einem versteckten Markov-Modell verborgen ist, ist dasselbe wie das, was in einem diskreten Mischungsmodell verborgen ist. Vergessen Sie daher der Klarheit halber die Dynamik des verborgenen Zustands und halten Sie sich an ein endliches Mischungsmodell als Beispiel. Der "Zustand" in diesem Modell ist die Identität der Komponente, die jede Beobachtung verursacht hat. In dieser Modellklasse werden solche Ursachen niemals beobachtet, weshalb "versteckte Ursache" statistisch in die Behauptung übersetzt wird, dass die beobachteten Daten marginale Abhängigkeiten aufweisen, die entfernt werden, wenn die Quellkomponente bekannt ist. Und es wird geschätzt, dass die Quellkomponenten das sind, was diese statistische Beziehung wahr macht.
Das, was in einem vorwärtsgerichteten mehrschichtigen neuronalen Netzwerk mit Sigmoid-Mitteleinheiten verborgen ist, sind die Zustände dieser Einheiten, nicht die Ausgaben, die das Ziel der Folgerung sind. Wenn die Ausgabe des Netzwerks eine Klassifizierung ist, dh eine Wahrscheinlichkeitsverteilung über mögliche Ausgabekategorien, definieren diese versteckten Einheitswerte einen Raum, innerhalb dessen Kategorien trennbar sind. Der Trick beim Erlernen eines solchen Modells besteht darin, einen verborgenen Raum (durch Anpassen der Abbildung aus den Eingabeeinheiten) zu schaffen, in dem das Problem linear ist. Folglich sind nichtlineare Entscheidungsgrenzen aus dem Gesamtsystem möglich.
Generativ versus diskriminativ
Das Mischungsmodell (und HMM) ist ein Modell des Datenerzeugungsprozesses, das manchmal als Wahrscheinlichkeits- oder Vorwärtsmodell bezeichnet wird. In Verbindung mit einigen Annahmen über die vorherigen Wahrscheinlichkeiten jedes Zustands können Sie mithilfe des Bayes-Theorems (eines generativen Ansatzes) eine Verteilung über mögliche Werte des verborgenen Zustands ableiten. Beachten Sie, dass bei der Bezeichnung "Prior" in der Regel sowohl der Prior als auch die Parameter der Wahrscheinlichkeit aus Daten gelernt werden.
Im Gegensatz zum Mischungsmodell (und HMM) lernt das neuronale Netz eine posteriore Verteilung über die Ausgabekategorien direkt (ein diskriminativer Ansatz). Dies ist möglich, weil die Ausgabewerte während der Schätzung beobachtet wurden. Und da sie beobachtet wurden, ist es nicht notwendig, eine hintere Verteilung aus einem früheren und einem spezifischen Modell für die Wahrscheinlichkeit wie einer Mischung zu konstruieren. Der hintere Teil wird direkt aus Daten gelernt, was effizienter und weniger modellabhängig ist.
Mischen und Anpassen
Um die Sache noch verwirrender zu machen, können diese Ansätze gemischt werden, z. B. wenn der Mischungsmodell- (oder HMM-) Zustand manchmal tatsächlich beobachtet wird. Wenn dies zutrifft und in einigen anderen Fällen hier nicht relevant ist, ist es möglich, in einem ansonsten generativen Modell diskriminativ zu trainieren. In ähnlicher Weise ist es möglich, die Mischungsmodellabbildung eines HMM durch ein flexibleres Vorwärtsmodell, z. B. ein neuronales Netzwerk, zu ersetzen.
Die Fragen
Es ist also nicht ganz richtig, dass beide Modelle den verborgenen Zustand vorhersagen. HMMs können verwendet werden, um den verborgenen Zustand vorherzusagen, wenn auch nur in der Art, wie das Vorwärtsmodell dies erwartet. Neuronale Netze können verwendet werden, um einen noch nicht beobachteten Zustand vorherzusagen , z. B. zukünftige Zustände, für die Prädiktoren verfügbar sind. Diese Art von Zustand ist im Prinzip nicht verborgen, er wurde nur noch nicht beobachtet.
Wann würdest du eins verwenden anstatt das andere? Nun, neuronale Netze sind meiner Erfahrung nach eher umständliche Zeitreihenmodelle. Sie gehen auch davon aus, dass Sie die Ausgabe beobachtet haben. HMMs tun dies nicht, aber Sie haben wirklich keine Kontrolle darüber, wie der verborgene Zustand tatsächlich ist. Trotzdem handelt es sich um richtige Zeitreihenmodelle.