Was ist der Unterschied zwischen einem Markov-Zufallsfeld und einem bedingten Zufallsfeld?


19

Antworten:


11

Ok, ich habe die Antwort selbst gefunden:

Conditinal Random Fields (CRFs) sind ein Sonderfall von Markov Random Fields (MRFs).

1.5.4 Bedingtes Zufallsfeld

Ein Conditional Random Field (CRF) ist eine Form von MRF, die einen Posterior für Variablen x mit gegebenen Daten z definiert, wie bei der oben beschriebenen versteckten MRF. Im Gegensatz zum Hidden MRF wird die Faktorisierung in die Datenverteilung P (x | z) und den Prior P (x) jedoch nicht explizit gemacht [288]. Dadurch können komplexe Abhängigkeiten von x zu z direkt in die posteriore Verteilung geschrieben werden, ohne dass die Faktorisierung explizit gemacht wird. (Unter Berücksichtigung von P (x | z) gibt es solche Faktorisierungen jedoch immer - tatsächlich unendlich viele -, so dass es keinen Hinweis darauf gibt, dass die CRF allgemeiner ist als die versteckte MRF, sondern nur, dass es praktischer ist, damit umzugehen .)

Quelle: Blake, Kohli und Rother: Markov-Zufallsfelder für Vision und Bildverarbeitung. 2011.

Ein bedingtes Zufallsfeld oder CRF (Lafferty et al. 2001), manchmal ein diskriminierendes Zufallsfeld (Kumar und Hebert 2003), ist nur eine Version eines MRF, bei der alle Clique-Potenziale von Eingabemerkmalen abhängig sind: [...]

Der Vorteil eines CRF gegenüber einem MRF ist analog zum Vorteil eines diskriminativen Klassifikators gegenüber einem generativen Klassifikator (siehe Abschnitt 8.6), dh wir müssen keine Ressourcen verschwenden, um Dinge zu modellieren, die wir immer beobachten. [...]

Der Nachteil von CRFs gegenüber MRFs ist, dass sie gekennzeichnete Trainingsdaten benötigen und langsamer zu trainieren sind [...]

Quelle: Kevin P. Murphy: Maschinelles Lernen: Eine probabilistische Perspektive

Beantwortung meiner Frage:

Wenn ich die Werte der beobachteten Knoten eines MRF festlege, wird es dann zu einem CRF?

Ja. Das Fixieren der Werte ist dasselbe wie das Konditionieren. Sie sollten jedoch beachten, dass es auch Unterschiede im Training gibt.

Das Anschauen vieler Vorträge über PGM (probabilistic graphical models) auf coursera hat mir sehr geholfen.


0

MRF gegen Bayes-Netze : Ungewöhnlich (aber normalerweise) gibt es zwei Arten von grafischen Modellen: ungerichtete grafische Modelle und gerichtete grafische Modelle (ein weiterer Typ, z. B. Tanner-Diagramm). Ersteres ist auch als Markov Random Fields / Markov-Netzwerk und das spätere Bayes-Netz / Bayes-Netzwerk bekannt. (Manchmal können die Unabhängigkeitsannahmen in beiden durch Akkorddiagramme dargestellt werden.)

Markov impliziert die Art der Faktorisierung, und Zufallsfeld bedeutet eine bestimmte Verteilung unter denjenigen, die von einem ungerichteten Modell definiert werden.

P(Y.|X)Y.X

Der einzige Unterschied besteht darin, dass für ein Standard-Markov-Netzwerk der Normalisierungsterm über X und Y, für CRF jedoch nur über Y summiert.

Referenz:

  1. Ungerichtete grafische Modelle (Markov-Zufallsfelder)
  2. Prinzipien und Techniken probabilistischer grafischer Modelle (2009, The MIT Press)
  3. Markov zufällige Felder

0

Vergleichen wir die bedingte Inferenz unter MRFs mit der Modellierung unter Verwendung einer CRF, indem wir uns auf Definitionen festlegen und dann die ursprüngliche Frage beantworten.

MRF

G

  1. G
  2. GVichVjVichVjBichP({Vich}) G

Bedingte Inferenz unter einer MRF

Da eine MRF eine gemeinsame Verteilung über viele Variablen darstellt, die Markov-Beschränkungen entsprechen, können wir bedingte Wahrscheinlichkeitsverteilungen bei beobachteten Werten einiger Variablen berechnen.

Wenn ich zum Beispiel eine gemeinsame Verteilung über vier Zufallsvariablen habe: IsRaining, SprinklerOn, SidewalkWet und GrassWet, dann möchte ich am Montag möglicherweise die gemeinsame Wahrscheinlichkeitsverteilung über IsRaining und SprinklerOn herleiten, vorausgesetzt, ich habe SidewalkWet = False und GrassWet = beobachtet Wahr. Am Dienstag möchte ich vielleicht die gemeinsame Wahrscheinlichkeitsverteilung über IsRaining und SprinklerOn ableiten, da ich SidewalkWet = True und GrassWet = True beobachtet habe.

Mit anderen Worten, wir können dasselbe MRF-Modell verwenden, um Rückschlüsse auf diese beiden unterschiedlichen Situationen zu ziehen, aber wir würden nicht sagen, dass wir das Modell geändert haben. Obwohl wir SidewalkWet und GrassWet in beiden hier beschriebenen Fällen beobachtet haben, hat die MRF selbst keine "beobachteten Variablen" an sich - alle Variablen haben in den Augen der MRF den gleichen Status, daher modelliert die MRF auch, zB die gemeinsame Verteilung von SidewalkWet und GrassWet.

CNI

G

  1. G{Xich}ich=1n{Y.ich}ich=1m
  2. P({Y.ich}ich=1m|{Xich}ich=1n)G

Der Unterschied

G

  1. bezeichnet eine Teilmenge von Variablen als "beobachtet"

  2. definiert nur eine bedingte Verteilung auf nicht beobachtete gegebene beobachtete Variablen; Die Wahrscheinlichkeit der beobachteten Variablen wird nicht modelliert. (Wenn Verteilungen als Parameter ausgedrückt werden, wird dies häufig als Vorteil angesehen, da Parameter nicht zur Erklärung der Wahrscheinlichkeit von Dingen verschwendet werden, die immer bekannt sind.)

  3. G

{Xich}GG{Y.ich}{Y.ich}{Xich}{Y.ich}{Xich}

Beispiel

Y.ichX1,X2,...Xn-1Xn

lineare Ketten-MRF: X_1, X_2, ..., X_n, Y_1, Y_2, ..., Y_m

G{Xich}{Y.ich}{Xich}

Fazit

GGGGGG

Neben den potenziellen Einsparungen von Modellparametern, der gesteigerten Aussagekraft des bedingten Modells und der Beibehaltung der Inferenzeffizienz ist ein letzter wichtiger Punkt des CRF-Rezepts, dass für diskrete Modelle (und eine große Teilmenge nichtdiskreter Modelle) trotz der Ausdruckskraft der CRF-Familie, die log-Wahrscheinlichkeit kann als eine konvexe Funktion der Funktionsparameter ausgedrückt werden, die eine globale Optimierung mit Gradientenabstieg ermöglicht.

Siehe auch: das Original-CF-Papier und dieses Tutorial

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.