Moderne Anwendungsfälle für eingeschränkte Boltzmann-Maschinen (RBM)?

16

Hintergrund: Ein Großteil der modernen Forschung in den letzten ~ 4 Jahren (nach Alexander Net ) scheint von der Verwendung von generativem Pretraining für neuronale Netze abgewichen zu sein, um Klassifizierungsergebnisse auf dem neuesten Stand der Technik zu erzielen.

Zum Beispiel beinhalten die Top-Ergebnisse für Mnist hier nur 2 Artikel der Top 50, die generative Modelle zu verwenden scheinen, die beide RBMs sind. Die anderen 48 Gewinnerbeiträge befassen sich mit unterschiedlichen diskriminativen Feed-Forward-Architekturen, wobei große Anstrengungen unternommen werden, um bessere / neuartige Gewichtungsinitialisierungen und Aktivierungsfunktionen zu finden, die sich vom Sigmoiden unterscheiden, das im RBM und in vielen älteren neuronalen Netzen verwendet wird.

Frage: Gibt es einen modernen Grund, Restricted Boltzmann Machines mehr einzusetzen?

Wenn nicht, gibt es eine De-facto-Änderung, die man auf diese Feed-Forward-Architekturen anwenden kann, um eine ihrer Ebenen generativ zu machen?

Motivation: Ich frage, weil einige der Modelle, die mir zur Verfügung stehen, normalerweise Varianten des RBM, nicht unbedingt offensichtliche analoge Unterscheidungsgegenstücke zu diesen generativen Schichten / Modellen aufweisen und umgekehrt. Beispielsweise:

mcRBM
ssRBM
CRBM (obwohl man könnte die CNN argumentieren , solche voraus Architekturen füttern ist die diskriminativen analog Architektur)

Auch diese waren eindeutig vor alexnet, von 2010, 2011 und 2009 respektvoll.

— user27886
quelle

3

Zum Spaß habe ich ein generatives Feed-Forward-NN durch automatische Regression erstellt. power2predict.edublogs.org/2016/06/26/…

— Chris

6

Dies ist eine Art alte Frage, aber da im Wesentlichen nach 'Best Practices' gefragt wird, anstatt nach dem, was technisch möglich ist (dh nicht zu viel Forschungsschwerpunkt benötigt), sind die aktuellen Best Practices so etwas wie:

RBMs werden derzeit normalerweise nicht verwendet
Nach Möglichkeit werden lineare Modelle (lineare Regression, logistische Regression) verwendet
ansonsten tiefe Feed-Forward-Netzwerke mit Schichten wie vollständig verbundenen Schichten, Faltungsschichten und einer Art Regularisierungsebenen wie Dropout und in letzter Zeit Batch-Normalisierung
Natürlich mit Aktivierungsschichten dazwischen, typischerweise ReLU, aber auch Tanh und Sigmoid werden verwendet
und wahrscheinlich einige Max-Pools (nicht immer: auch durchschnittliche Pools und andere werden verwendet)

Für generative Verwendungen gehören zu den gängigen Techniken:

GAN und seine unzähligen Varianten, http://www.cs.toronto.edu/~dtarlow/pos14/talks/goodfellow.pdf
Auto-Encoder, aber in letzter Zeit werden sie eher ersetzt durch:
- Variations-Auto-Encoder, VAE, https://arxiv.org/abs/1312.6114
- Generative CNNs, Wavenet: https://deepmind.com/blog/wavenet-generative-model-raw-audio/
RNNs, z. B. seq2seq https://arxiv.org/pdf/1409.3215v3.pdf

— Hugh Perkins
quelle

1

Ich habe kürzlich dieses Papier über "Boltzmann Encoded Adversarial Machines" gefunden, das RBMs mit CNNs als generatives Modell integriert.

Die Autoren zeigen, dass es in gewisser Hinsicht mathematisch "besser" ist, und zeigen einige Spielzeugbeispiele, bei denen BEAM im Vergleich zu anderen GAN-Modellen die Datenverteilung wesentlich genauer zu lernen scheint.

Der "echte" Benchmark von CelebA-Gesichtern war weitaus weniger beeindruckend - es ist nicht klar, dass BEAM besser oder sogar so gut wie andere beliebte GANs abschneidet. Die Verwendung von RBMs in diesem Umfeld ist jedoch sicherlich interessant.

— shimao
quelle

Glauben Sie, dass dieser Fehler auf den Suchraum von BEAM zurückzuführen ist, der eine größere Anzahl von Freiheitsgraden zulässt, die der Modelldefinition eigen sind?

— Vass