Verstecktes Markov-Modell vs Markov-Übergangsmodell vs Zustands-Raum-Modell…?

Für meine Masterarbeit arbeite ich an der Entwicklung eines statistischen Modells für die Übergänge zwischen verschiedenen Zuständen, definiert durch den serologischen Status. Im Moment werde ich in diesem Zusammenhang nicht zu viele Details angeben, da meine Frage allgemeiner / theoretischer ist. Wie auch immer, meine Intuition ist, dass ich ein Hidden Markov Model (HMM) verwenden sollte; Das Problem, auf das ich stoße, wenn ich die Literatur und andere für die Formulierung meines Modells erforderliche Hintergrundforschungen durchläufe, ist die Verwirrung über die Terminologie und die genauen Unterschiede zwischen verschiedenen Arten von verborgenen Prozessmodellen. Mir ist nur sehr vage bewusst, was sie auszeichnet (Beispiele folgen). Darüber hinaus scheint es mir, zumindest nach dem, was ich in der Literatur gesehen habe, ein sehr ungewöhnliches Vokabular zu geben, das sich um diese Art der Modellierung dreht.

Ich hatte gehofft, dass die Leute mir helfen können, einige dieser Begriffe für mich zu disambiguieren. Ich habe eine Reihe von Fragen, aber ich vermute, dass sich der Rest dadurch entwirrt, wenn ein oder zwei zufriedenstellend beantwortet werden. Ich hoffe, das ist nicht zu langwierig; Wenn ein Moderator möchte, dass ich dies in mehrere Posts aufteile, werde ich es tun. In jedem Fall habe ich meine Fragen fett gedruckt, gefolgt von den Details der Frage, die ich während meiner Literaturrecherche aufgedeckt habe.

Also, in keiner bestimmten Reihenfolge:

1) Was genau ist ein "verstecktes Prozessmodell"?

Ich habe unter dem Eindruck gearbeitet, dass "verstecktes Prozessmodell" eine Art Überbegriff ist, der verwendet werden kann, um eine Reihe verschiedener Arten statistischer Modelle zu beschreiben, die alle im Wesentlichen probabilistische Beschreibungen von Zeitreihendaten sind, die durch "ein Überlappungssystem" erzeugt werden. potenziell versteckte, linear additive Prozesse "([1]). In der Tat definiert [2] ein "verborgenes Prozessmodell" als "einen allgemeinen Begriff, der sich entweder auf ein Zustandsraummodell oder ein verborgenes Markov-Modell bezieht". [1] scheint zu schließen, dass ein Hidden-Markov-Modell ein Subtyp von Hidden-Process-Modellen ist, der speziell auf die Inferenz auf binäre Zustände abzielt; Die grundlegende Implikation scheint mir, dass ein Hidden-Process-Modell eine Verallgemeinerung eines Hidden-Markov-Modells ist. Ich sehe manchmal "verstecktes Prozessmodell" UND die Phrase "

Ist diese Intuition meinerseits richtig? Wenn nicht, hat jemand eine Referenz, die diese Methoden klarer umreißt?

2) Was ist der Unterschied zwischen einem Hidden-Markov-Modell und einem Zustandsraummodell?

Zurück zu [2] (wenn auch nur, weil das Papier ein klares Glossar mit Begriffen enthält und nicht, weil das Papier selbst besonders aussagekräftig zu sein scheint; es ist nur eine bequeme Quelle für Ein-Satz-Definitionen), so scheint der Unterschied darin zu bestehen Ein Hidden-Markov-Modell ist ein spezifischer Typ eines Zustands-Raum-Modells, bei dem die Zustände markovisch sind (es scheint keine bestimmte Einschränkung für die Reihenfolge des Markov-Prozesses zu geben, dh erste Ordnung, ..., k-te Ordnung). Hier wird ein Zustandsraummodell definiert als "Ein Modell, das zwei Zeitreihen parallel durchläuft, wobei eines die Dynamik der wahren Zustände (latent) erfasst und das andere aus Beobachtungen besteht, die aus diesen zugrunde liegenden, aber möglicherweise unbekannten Zuständen gemacht werden." Wenn diese Zustände auch die Markov-Eigenschaft aufweisen, handelt es sich um ein Hidden-Markov-Modell.

In [3] wird jedoch der Unterschied zwischen Zustandsraummodellen und Hidden-Markov-Modellen als mit den Merkmalen des latenten Zustands verbunden definiert. Hier befasst sich ein Hidden-Markov-Modell mit diskreten Zuständen, während sich Zustands-Raum-Modelle mit kontinuierlichen Zuständen befassen; Ansonsten sind sie konzeptionell identisch.

Dies scheinen mir zwei sehr unterschiedliche Definitionen zu sein. Unter einem ist ein Hidden-Markov-Modell ein Subtyp des Zustandsraummodells, während unter dem anderen beide nur unterschiedliche Instanzen einer breiteren Klasse von Hidden-Process-Modellen sind. Welche davon ist richtig? Meine Intuition weist mich darauf hin, [3] statt [2] zu folgen, aber ich kann keine maßgebliche Quelle finden, die dies unterstützt.

3) Was ist ein "Markov-Übergangsmodell"?

Ein anderer Begriff, der in vielen Quellen vorkommt, ist "Markov-Übergangsmodell". Ich konnte diesen Satz in keinem Lehrbuch finden, aber er kommt häufig in Zeitschriftenartikeln vor (stecken Sie ihn einfach zur Bestätigung in Google ein). Ich war nicht in der Lage, eine strenge Definition des Begriffs zu finden (jede Zeitung, die ich finde, zitiert eine andere Zeitung, die eine andere zitiert usw. und schickt mich in ein PubMed-Kaninchenloch, das nirgendwo hinführt). Mein Eindruck aus dem Kontext ist, dass es ein sehr allgemeiner Begriff ist, sich auf jedes Modell zu beziehen, bei dem das Objekt der Folgerung die Übergänge zwischen Zuständen sind, die einem Markov-Prozess folgen, und dass ein verborgenes Markov-Modell als ein bestimmter Typ eines Markov-Übergangsmodells angesehen werden kann . [4] scheint jedoch das Übergangsmodell, das Hidden-Markov-Modell und mehrere ähnliche Begriffe synonym zu verwenden.

Andererseits wird in [5] etwas anders über Markov-Übergangsmodelle und Hidden-Markov-Modelle gesprochen. Die Autoren stellen fest: "Übergangsmodelle bieten eine Methode zur Zusammenfassung der Dynamik der Befragten, die für die Interpretation der Ergebnisse komplexerer Hidden-Markov-Modelle hilfreich ist." Ich verstehe nicht ganz, was sie mit diesem Satz meinen, und kann an anderer Stelle in der Zeitung keine Rechtfertigung dafür finden. Sie scheinen jedoch zu implizieren, dass Markov-Übergangsmodelle die Zeit als kontinuierliche Variable verwenden, während versteckte Markov-Modelle die Zeit als diskrete Variable verwenden (sie sagen dies nicht direkt; sie sagen, dass sie das R-Paket 'msm' verwenden, um den Markov-Übergang anzupassen Modelle und beschreiben später 'msm' als kontinuierliche Behandlung der Zeit im Gegensatz zum R-Paket für HMMs.

4) Wo passen andere Konzepte, zum Beispiel Dynamic Bayesian Networks?

Ein Dynamic Bayesian Network ist laut Wikipedia eine "Verallgemeinerung von Hidden-Markov-Modellen und Kalman-Filtern". An anderer Stelle habe ich Hidden-Markov-Modelle gesehen, die als Spezialfall eines dynamischen Bayes'schen Netzwerks definiert wurden, "in dem der gesamte Zustand der Welt durch eine einzige Hidden-State-Variable dargestellt wird" ( Definition des dynamischen Bayes'schen Systems und seine Beziehung zu HMM? ) . Ich verstehe diese Beziehung im Allgemeinen und sie wird durch [6] gut erklärt.

Es fällt mir jedoch schwer zu verstehen, wie diese Beziehung in das Gesamtbild der Dinge passt. Das heißt, in Anbetracht dieser Beziehung zwischen HMMs und DBNs, wie hängen Zustandsraummodelle und verborgene Prozessmodelle mit beiden zusammen? Wie hängen all diese verschiedenen Arten von Methoden zusammen, da es scheinbar mehrere "Verallgemeinerungen" von Hidden-Markov-Modellen gibt?

Verweise:

[1] Tom M. Mitchell, Rebecca Hutchinson und Indrayana Rustandi. "Versteckte Prozessmodelle". 2006. CMU-CALD-05-116. Carnegie Mellon Universität.

[2] Oliver Giminez, Jean-Dominique Lebreton, Jean-Michel Gaillard, Remi Choquet und Roger Pradel. Msgstr "Schätzung demographischer Parameter unter Verwendung von dynamischen Modellen für versteckte Prozesse". Theoretische Populationsbiologie. 2012. 82 (4): 307 & ndash; 316.

[3] Barbara Engelhardt. "Versteckte Markov - Modelle und Zustandsraummodelle". STA561: Probabilistisches maschinelles Lernen. Duke University. http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf

[4] Jeroen K. Vermunt. "Latente Markov-Modellierung auf mehreren Ebenen in kontinuierlicher Zeit mit einer Anwendung auf die Analyse von Daten zur Beurteilung der ambulanten Stimmung". Workshop zur Sozialstatistik. 2012. Tilburg University. http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf

[5] Ken Richardson, David Harte, Kristie Carter. "Gesundheits- und Arbeitskräfteübergänge verstehen: Markov-Modelle auf SoFIE-Längsschnittdaten anwenden". Offizielle Statistik-Forschungsreihe. 2012.

[6] Zoubin Ghahramani. "Eine Einführung in Hidden Markov Modelle und Bayesian Networks". Zeitschrift für Mustererkennung und künstliche Intelligenz. 2001. 15 (1): 9 & ndash; 42.

machine-learning self-study hidden-markov-model

— Ryan Simmons
quelle

Möglicherweise möchten Sie auch ein wiederkehrendes neuronales Netzwerk ausprobieren. In der Spracherkennung haben einige sie erfolgreich als Ersatz für ein HMM verwendet.

— Albert

Vielen Dank für den Vorschlag. Im Moment würde ich es vorziehen, meine Fragen zu diesen Techniken zu klären, bevor ich mich neuen zuwende.

— Ryan Simmons

Sie beziehen sich auf dasselbe. Bitte scholarpedia.org/article/State_space_model Sangdon

@Ryan Simmons Ich denke, es wäre eine gute Idee, sich mathematicalmonks (aka Jeffrey Miller) Videos über Markov-Ketten und versteckte Markov-Modelle auf youtube anzusehen.

— JimBoy

Da Sie Ihre Dissertation wahrscheinlich inzwischen eingereicht haben, möchten Sie diese Frage bitte selbst beantworten? Ich für meinen Teil möchte hier eine Expertenantwort, die wahrscheinlich auch für die knapp 800 anderen Personen gilt, die diese Frage lesen.

— Ulf Aslak

Folgendes wird aus der Scholarpedia-Website zitiert :

Das Zustandsraummodell (SSM) bezieht sich auf eine Klasse von probabilistischen grafischen Modellen (Koller und Friedman, 2009), die die probabilistische Abhängigkeit zwischen der latenten Zustandsvariablen und der beobachteten Messung beschreiben. Der Zustand oder die Messung kann entweder kontinuierlich oder diskret sein. Der Begriff „Staatsraum“ entstand in den 1960er Jahren im Bereich der Regelungstechnik (Kalman, 1960). SSM bietet einen allgemeinen Rahmen für die Analyse deterministischer und stochastischer dynamischer Systeme, die durch einen stochastischen Prozess gemessen oder beobachtet werden. Das SSM-Framework wurde erfolgreich in den Bereichen Ingenieurwesen, Statistik, Informatik und Wirtschaft angewendet, um eine breite Palette von Problemen mit dynamischen Systemen zu lösen. Andere Begriffe, die zur Beschreibung von SSMs verwendet werden, sind Hidden-Markov-Modelle (HMMs) (Rabiner, 1989) und latente Prozessmodelle. Das am besten untersuchte SSM ist der Kalman-Filter.

— user93693
quelle

Ich und Alan Hawkes haben viel über aggregierte Markov-Prozesse mit diskreten Zuständen in kontinuierlicher Zeit geschrieben. Unsere Arbeit befasste sich mit dem Problem der Interpretation von Beobachtungen einzelner Ionenkanalmoleküle und beinhaltete eine genaue Behandlung von verpassten kurzen Ereignissen. Eine ähnliche Theorie funktioniert auch in der Zuverlässigkeitstheorie. Es könnte durchaus an andere Probleme angepasst werden. Weitere Informationen finden Sie unter http://www.onemol.org.uk/?page_id=175 .

— David Colquhoun
quelle