Sind grafische Modelle und Boltzmann-Maschinen mathematisch miteinander verbunden?


10

Während ich im Physikunterricht tatsächlich einige Programmierungen mit Boltzmann-Maschinen durchgeführt habe, bin ich mit deren theoretischer Charakterisierung nicht vertraut. Im Gegensatz dazu kenne ich eine bescheidene Menge über die Theorie der grafischen Modelle (über die ersten Kapitel von Lauritzens Buch Graphical Models ).

Frage: Gibt es eine sinnvolle Beziehung zwischen grafischen Modellen und der Boltzmann-Maschine? Ist die Boltzmann-Maschine eine Art grafisches Modell?

Offensichtlich ist die Boltzmann-Maschine eine Art neuronales Netzwerk. Ich habe gehört, dass einige neuronale Netze mathematisch mit grafischen Modellen verwandt sind und andere nicht.

Verwandte Fragen zu CrossValidated, die meine Frage nicht beantworten:
Dies ähnelt einer früheren Frage, die zuvor gestellt wurde: Wie ist die Beziehung zwischen hierarchischen Modellen, neuronalen Netzen, grafischen Modellen, Bayes'schen Netzen? ist aber spezifischer.

Darüber hinaus verdeutlicht die akzeptierte Antwort auf diese Frage meine Verwirrung nicht - selbst wenn die Knoten in der grafischen Standarddarstellung eines neuronalen Netzwerks keine Zufallsvariablen darstellen, bedeutet dies nicht unbedingt, dass keine solche Darstellung existiert. Insbesondere denke ich darüber nach, wie die Knoten in der typischen grafischen Darstellung von Markov-Ketten die Menge möglicher Zustände und nicht die Zufallsvariablen , aber man könnte auch einen Graphen erstellen, der die bedingten Abhängigkeitsbeziehungen zwischenX iXiXi, was zeigt, dass jede Markov-Kette tatsächlich ein Markov-Zufallsfeld ist. Die Antwort besagt auch, dass neuronale Netze (vermutlich einschließlich Boltzmann-Maschinen) "diskriminierend" sind, aber nicht näher darauf eingehen, um zu erklären, was diese Behauptung bedeutet, und auch nicht die offensichtliche Folgefrage "Sind grafische Modelle nicht diskriminierend?" angesprochen. Ebenso enthält die akzeptierte Antwort Links zu Kevin Murphys Website (ich habe tatsächlich einige seiner Doktorarbeiten gelesen, als ich etwas über Bayes'sche Netze erfuhr), aber diese Website behandelt nur Bayes'sche Netze und erwähnt überhaupt keine neuronalen Netze - daher wird nicht beleuchtet, wie sie sind sind anders.

Diese andere Frage ist meiner wahrscheinlich am ähnlichsten: Mathematische Modellierung neuronaler Netze als grafische Modelle Allerdings wurde keine der Antworten akzeptiert und gibt ebenfalls nur Referenzen an, erklärt aber nicht die Referenzen (z . B. diese Antwort ). Während ich eines Tages hoffentlich in der Lage sein werde, die Referenzen zu verstehen, bin ich jetzt auf einem grundlegenden Wissensstand und würde mich über eine Antwort freuen, die so einfach wie möglich ist. Auch der Kurs in Toronto, auf den in der Top-Antwort ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) verwiesen wird, spricht dies an, jedoch nicht sehr detailliert. Darüber hinaus sind die Notizen für die eine Vorlesung, die meine Frage beantworten könnte, nicht öffentlich zugänglich.

25. März Vorlesung 13b: Glaubensnetze 7:43. Beachten Sie bei dieser Folie die Boltzmann-Maschinen. Auch dort haben wir versteckte und sichtbare Einheiten, und alles ist probabilistisch. BMs und SBNs haben mehr gemeinsam als Unterschiede. 9:16. Heutzutage werden "grafische Modelle" manchmal als eine spezielle Kategorie neuronaler Netze angesehen, aber in der hier beschriebenen Geschichte wurden sie als sehr unterschiedliche Arten von Systemen angesehen.

Antworten:


7

Boltzmann-Maschinen gegen eingeschränkte Boltzmann-Maschinen

AFAIK die Boltzmann-Maschinen sind eine Art grafisches Modell, und das Modell, das sich auf neuronale Netze bezieht, sind die eingeschränkten Boltzmann-Maschinen (RBM).

Der Unterschied zwischen Boltzmann-Maschinen und eingeschränkten Boltzmann-Maschinen aus dem Buch Machine Learning A Probabilistic Perspective Geben Sie hier die Bildbeschreibung ein

RBMs vs. neuronale Netze

Für RBMs (siehe: Ein praktischer Leitfaden zum Trainieren eingeschränkter Boltzmann-Maschinen von Geoffrey Hinton ) wobei und den sichtbaren und versteckten Einheiten in der obigen Abbildung entsprechen und die Sigmoid-Funktion ist.

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
v h σ ( )
p(vi=1|h)=σ(ai+hjwij)
vhσ()

Die bedingten Wahrscheinlichkeiten werden in derselben Form von Netzwerkschichten berechnet, sodass die trainierten Gewichte von RBMs direkt als Gewichte von neuronalen Netzwerken oder als Ausgangspunkt für das Training verwendet werden können.

Ich denke, das RBM selbst ist eher ein grafisches Modell als eine Art neuronales Netzwerk, da es ungerichtet ist, gut definierte bedingte Abhängigkeiten aufweist und eigene Trainingsalgorithmen verwendet (z. B. kontrastive Divergenz).


2
Schön, das ist eine wirklich gute Antwort mit einer tollen Referenz. Ich möchte auch noch früher das Buch von Professor Murphy lesen. Ich schätze die Zeit, die Sie gebraucht haben, um diese gründliche Antwort zu geben.
Chill2Macht

2
@ William froh, hilfreich zu sein :)
Dontloo

2
Gute Antwort. Könnten Sie die Notation etwas genauer dokumentieren? (Ich habe kürzlich etwas Ähnliches gelesen, also erkenne ich sichtbare Knoten, versteckte Knoten, logistische Funktion, andere jedoch möglicherweise nicht.) Es könnte auch gut sein, das vollständige Zitat aufzunehmen , um sich vor Verknüpfungen zu schützen -verrotten. h = σ ( ) =v=h=σ()=
GeoMatt22

2
@ GeoMatt22 Danke, ich habe die Antwort aktualisiert.
Dontloo

3

Dies bestätigt / bestätigt nur die akzeptierte Antwort, dass Boltzmann-Maschinen tatsächlich ein Sonderfall des grafischen Modells sind. Insbesondere wird diese Frage auf den Seiten 127-127 von Koller, Friedman, Probabilistic Graphical Models: Principles and Techniques , in Box 4.C.

Eine der frühesten Arten von Markov-Netzwerkmodellen ist das Ising-Modell, das erstmals in der statistischen Physik als Modell für die Energie eines physikalischen Systems mit einem System wechselwirkender Atome entstanden ist. Im Zusammenhang mit dem Ising-Modell steht die Boltzmann-Maschinenverteilung. Die resultierende Energie kann anhand eines Ising-Modells umformuliert werden (Aufgabe 4.12).

Wie das Ising-Modell, ursprünglich ein Konzept aus der statistischen Mechanikliteratur, als grafisches Modell formuliert werden kann, wird in Beispiel 3.1, Abschnitt 3.3, auf den Seiten 41-43 von Wainwright, Jordan, Graphical Models, Exponential, ausführlich beschrieben Familien und Variationsinferenz .

Anscheinend war das Ising-Modell maßgeblich an der Gründung des Feldes der grafischen Modelle in den späten 1970er und frühen 1980er Jahren beteiligt, zumindest basierend auf den Aussagen von Steffen Lauritzen sowohl im Vorwort als auch in der Einleitung zu seinem Buch Graphical Models . Diese Interpretation scheint auch in Abschnitt 4.8 des oben zitierten Buches von Koller und Friedman unterstützt zu werden.

Die Entwicklung von Boltzmann-Maschinen nach dem Ising-Modell könnte ein eigenständiges Ereignis gewesen sein, das ebenfalls auf demselben Abschnitt von Koller und Friedman basiert, der behauptet, dass "Boltzmann-Maschinen zuerst von Hinton und Sejnowski (1983) vorgeschlagen wurden", was zu sein scheint trat nach den ersten Arbeiten zur Entwicklung von Markov-Zufallsfeldern als Verallgemeinerungen des Ising-Modells auf, obwohl die Arbeiten hinter diesem Papier viel früher als 1983 hätten beginnen können.


Meine Verwirrung in Bezug auf diese Beziehung, als ich diese Frage vor mehr als einem Jahr schrieb, resultierte aus der Tatsache, dass ich in der Physikliteratur zum ersten Mal sowohl auf das Ising-Modell als auch auf das Boltzmann-Maschinenmodell für Neuronen gestoßen bin. Wie Koller und Friedman erwähnen, ist die Literatur innerhalb der statistischen Physik über das Ising-Modell und verwandte Begriffe wirklich umfangreich.

Nach meiner Erfahrung ist es auch ziemlich insular, in dem Sinne, dass während Statistiker und Informatiker, die grafische Modelle studieren, erwähnen werden, wie das Feld mit der statistischen Mechanik zusammenhängt, keine Referenz, die ich jemals aus der statistischen Physikliteratur gefunden habe, die Verbindungen zu anderen Feldern oder erwähnt versucht es auszunutzen. (Daher habe ich Zweifel und bin verwirrt über die Vorstellung, dass es solche Verbindungen zu anderen Bereichen geben könnte.)

Ein Beispiel für die Perspektive des Physikers sowohl auf das Ising-Modell als auch auf die Boltzmann-Maschine finden Sie im Lehrbuch des Kurses, in dem ich zum ersten Mal davon erfahren habe. Es werden auch mittlere Feldmethoden erwähnt, wenn ich mich richtig erinnere, etwas, das auch in dem oben zitierten Artikel von Jordan und Wainwright diskutiert wurde.


2
Die Verbindung kann sehr dünn sein und basiert hauptsächlich auf der Verwendung der Partitionsfunktion, die der statistischen Mechanik zugrunde liegt, und darauf, dass das Exponential der Summe der inneren Produkte genommen wird. Die Softmax-Funktion verwendet ebenfalls diese Form, sodass die Nomenaklatur das Erbe der Begriffe beibehält und viele Physiker in ML arbeiten (z. B. Christopher Bishop).
Vass
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.