Was ist der Unterschied zwischen „Deep Learning“ und mehrstufiger / hierarchischer Modellierung?

Ist "Deep Learning" nur ein weiterer Begriff für mehrstufige / hierarchische Modellierung?

Ich kenne die letztere viel besser als die erstere, aber soweit ich das beurteilen kann, besteht der Hauptunterschied nicht in ihrer Definition, sondern darin, wie sie in ihrem Anwendungsbereich verwendet und bewertet werden.

Es sieht so aus, als ob die Anzahl der Knoten in einer typischen "Deep Learning" -Anwendung größer ist und eine generische hierarchische Form verwendet, wohingegen bei Anwendungen mit mehrstufiger Modellierung in der Regel hierarchische Beziehungen verwendet werden, die den zu modellierenden generativen Prozess nachahmen. Die Verwendung einer generischen Hierarchie in einem Bereich der angewandten Statistik (hierarchische Modellierung) würde als "falsches" Modell der Phänomene angesehen, während die Modellierung einer domänenspezifischen Hierarchie als Umkehrung des Ziels einer generischen Deep-Learning-Maschine angesehen werden könnte.

Sind diese beiden Dinge wirklich die gleiche Maschinerie unter zwei verschiedenen Namen, die auf zwei verschiedene Arten verwendet werden?

— user4733
quelle

Antworten:

Ähnlichkeit

Grundsätzlich wurden beide Arten von Algorithmen entwickelt, um eine allgemeine Frage in Anwendungen für maschinelles Lernen zu beantworten:

Vorgegebene Prädiktoren (Faktoren) - wie können die Wechselwirkungen zwischen diesen Faktoren berücksichtigt werden, um die Leistung zu steigern? $x_1, x_2, \ldots, x_p$

Eine Möglichkeit besteht darin, einfach neue Prädiktoren einzuführen: Dies erweist sich jedoch aufgrund der großen Anzahl von Parametern und der sehr spezifischen Art von Interaktionen als schlechte Idee. $x_{p+1} = x_1x_2, x_{p+2} = x_1x_3, \ldots$

Sowohl Multilevel-Modellierungs- als auch Deep-Learning-Algorithmen beantworten diese Frage, indem sie ein viel intelligenteres Interaktionsmodell einführen. Und in dieser Hinsicht sind sie sich sehr ähnlich.

Unterschied

Lassen Sie mich nun versuchen, mein Verständnis für den großen konzeptuellen Unterschied zwischen ihnen zu geben. Um eine Erklärung zu geben, sehen wir uns die Annahmen an, die wir in jedem der Modelle treffen:

Mehrebenenmodellierung: Schichten, die die Datenstruktur widerspiegeln, können als Bayesianisches Hierarchisches Netzwerk dargestellt werden . Dieses Netzwerk ist fest und stammt normalerweise aus Domänenanwendungen. $^1$

Deep Learning: Die Daten wurden durch das Zusammenspiel vieler Faktoren generiert. Die Struktur von Interaktionen ist nicht bekannt, kann aber als geschichtete Faktorisierung dargestellt werden: Interaktionen höherer Ebenen werden durch Transformation von Repräsentationen niedrigerer Ebenen erhalten. $^2$

Der grundlegende Unterschied ergibt sich aus dem Ausdruck "Die Struktur von Interaktionen ist nicht bekannt" im Deep Learning. Wir können einige Prioritäten in Bezug auf die Art der Interaktion annehmen, doch der Algorithmus definiert alle Interaktionen während des Lernvorgangs. Auf der anderen Seite müssen wir die Struktur der Interaktionen für die mehrstufige Modellierung definieren (danach lernen wir nur, die Parameter des Modells zu variieren).

Beispiele

Angenommen, wir haben drei Faktoren und definieren und als unterschiedliche Ebenen. $x_1, x_2, x_3$ $\{x_1\}$ $\{x_2, x_3\}$

In der mehrstufigen Modellierungsregression erhalten wir zum Beispiel die Interaktionen und , aber niemals die Interaktion . Natürlich werden die Ergebnisse teilweise durch die Korrelation der Fehler beeinflusst, aber dies ist für das Beispiel nicht so wichtig. $x_1 x_2$ $x_1 x_3$ $x_2 x_3$

Beim Tiefenlernen, zum Beispiel bei mehrschichtigen Restricted Boltzmann-Maschinen ( RBM ) mit zwei verborgenen Schichten und linearer Aktivierungsfunktion, werden alle möglichen polinomialen Wechselwirkungen mit einem Grad kleiner oder gleich drei auftreten.

Gemeinsame Vor- und Nachteile

Mehrebenenmodellierung

(-) müssen die Struktur der Interaktionen definieren

(+) Ergebnisse sind in der Regel leichter zu interpretieren

(+) können statistische Methoden anwenden (Konfidenzintervalle auswerten, Hypothesen überprüfen)

Tiefes Lernen

(-) erfordert eine große Datenmenge zum Trainieren (und auch Zeit für das Training)

(-) Ergebnisse sind normalerweise nicht interpretierbar (wird als Black Box angezeigt)

(+) kein Expertenwissen erforderlich

(+) einmal gut trainiert, übertrifft normalerweise die meisten anderen allgemeinen Methoden (nicht anwendungsspezifisch)

Hoffe es wird helfen!

— Dmitry Laptev
quelle

Warum benötigt ein tiefes neuronales Netzwerk eine große Datenmenge, um zu trainieren? Davon habe ich noch nie gehört.

— Jase

@Jase Neuronale Netze haben normalerweise viele Parameter. Wenn Sie daher einen kleinen Datensatz verwenden, werden Sie wahrscheinlich nur überanpassen. Natürlich hängt alles von der Aufgabe ab, aber die meisten der beeindruckendsten NN-Ergebnisse verwenden heutzutage extrem große Datensätze.

— Dmitry Laptev

Sind uns einig, dass die beeindruckenden Ergebnisse bei großen Datenmengen vorliegen, aber ich bin mir nicht sicher, ob wir Dropout und andere Tricks nicht verwenden können, um kleine Datenmengen gut zu verallgemeinern.

— Jase

@Jase Sicher, es gibt verschiedene Heuristiken, die Sie verwenden können. Bis zu meiner Erfahrung mit der Bildverarbeitung führen fast alle von ihnen eine Regularisierung ein, die im Grunde genommen der Einführung einer früheren und daher voreingenommenen Methode entspricht. Welches ist nicht immer was Sie wollen.

— Dmitry Laptev

Vermutlich müssen Sie die Struktur der Interaktionen nicht definieren, wenn Sie nichtparametrische Methoden verwenden, z. B. ein hierarchisches Dirichlet.

— Astrid

Obwohl diese Frage / Antwort schon eine Weile da draußen war, hielt ich es für hilfreich, ein paar Punkte in der Antwort zu klären. Erstens die Formulierung, die als Hauptunterscheidung zwischen hierarchischen Methoden und tiefen neuronalen Netzen verwendet wird: "Dieses Netz ist fest." ist falsch. Hierarchische Methoden sind nicht "fester" als die alternativen neuronalen Netze. Siehe zum Beispiel die Veröffentlichung Deep Learning with Hierarchical Convolutional Factor Analysis von Chen et. al.. Ich denke, Sie werden auch feststellen, dass das Erfordernis, Interaktionen zu definieren, kein Unterscheidungsmerkmal mehr ist. Ein paar Punkte, die bei der hierarchischen Modellierung nicht als Vorteil aufgeführt sind, sind meiner Erfahrung nach das deutlich verringerte Problem der Überanpassung und die Fähigkeit, sowohl sehr große als auch sehr kleine Trainingssätze zu handhaben. Ein Kritikpunkt ist, dass Konfidenzintervalle und Hypothesentests bei der Verwendung von Bayes'schen hierarchischen Methoden im Allgemeinen keine statistischen Methoden sind, die angewendet würden.

— Aengus
quelle