Gibt es tatsächlich einen Mangel an grundlegender Theorie zum tiefen Lernen?


9

Ich habe mehrmals gehört, dass eines der grundlegenden / offenen Probleme des tiefen Lernens das Fehlen einer "allgemeinen Theorie" ist, weil wir eigentlich nicht wissen, warum tiefes Lernen so gut funktioniert. Sogar die Wikipedia-Seite zum Thema Deep Learning enthält ähnliche Kommentare . Sind solche Aussagen glaubwürdig und repräsentativ für den Stand des Feldes?


Willkommen bei AI.SE! Anfragen nach externen Ressourcen sind hier im Allgemeinen nicht zum Thema, da sie in der Regel sehr schnell veraltet sind und Antworten von geringer Qualität / nur auf Links enthalten. Ich habe Ihre Frage bearbeitet, um die explizite Anfrage nach Referenzen zu entfernen und dabei die Absicht / den Geist so weit wie möglich beizubehalten. Eine Einführung in unsere Website finden Sie auf der Tour . Schöne Grüße!
Ben N

Antworten:


4

Es gibt ein Papier mit dem Titel Warum funktioniert Deep Learning so gut? .

"Es ist jedoch immer noch nicht vollständig geklärt, warum Deep Learning so gut funktioniert. Im Gegensatz zu GOFAI-Algorithmen (" good old-fashioned AI "), die handgefertigt und analytisch vollständig verstanden werden, werden viele Algorithmen, die künstliche neuronale Netze verwenden, nur unter verstanden Eine heuristische Ebene, auf der wir empirisch wissen, dass bestimmte Trainingsprotokolle, die große Datenmengen verwenden, zu einer hervorragenden Leistung führen. Dies erinnert an die Situation mit dem menschlichen Gehirn: Wir wissen, dass ein Kind, wenn es nach einem bestimmten Lehrplan trainiert wird, sicher lernen wird Fähigkeiten - aber wir haben kein tiefes Verständnis dafür, wie ihr Gehirn dies erreicht. "


3

Dies ist sehr wohl der Fall. Deep-Learning-Modelle, selbst flache Modelle wie gestapelte Autoencoder und neuronale Netze, werden nicht vollständig verstanden. Es wird versucht zu verstehen, was mit dem Optimierungsprozess für eine solch komplexe variable intensive Funktion geschieht. Dies ist jedoch eine schwierige Aufgabe.

Eine Möglichkeit, mit der Forscher herausfinden, wie tiefes Lernen funktioniert, ist die Verwendung generativer Modelle. Zuerst trainieren wir einen Lernalgorithmus und behindern ihn systematisch, während wir ihn bitten, Beispiele zu generieren. Durch Beobachtung der resultierenden generierten Beispiele können wir auf einer signifikanteren Ebene schließen, was im Algorithmus geschieht. Dies ähnelt der Verwendung von Inhibitoren in den Neurowissenschaften, um zu verstehen, wofür verschiedene Komponenten des Gehirns verwendet werden. Zum Beispiel wissen wir, dass der visuelle Kortex dort ist, wo er ist, denn wenn wir ihn beschädigen, werden Sie blind.


2

Es hängt wahrscheinlich davon ab, was man unter "fundamentaler Theorie" versteht, aber es gibt keinen Mangel an strenger quantitativer Theorie beim tiefen Lernen, von denen einige trotz gegenteiliger Behauptungen sehr allgemein sind.

Ein gutes Beispiel ist die Arbeit an energiebasierten Lernmethoden. Siehe z. B. Neal & Hintons Arbeiten zu Variationsinferenz und freier Energie: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Auch dieser Leitfaden zur Energieminimierung als "gemeinsamer theoretischer Rahmen für viele Lernmodelle" von Yann LeCun und Kollegen: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

Und ein allgemeiner Rahmen für energiebasierte Modelle von Scellier und Bengio: https://arxiv.org/pdf/1602.05179.pdf

Es gibt auch Hinton & Sejnowskis frühere Arbeiten, die analytisch zeigen, dass ein bestimmtes Hopfield-inspiriertes Netzwerk + ein unbeaufsichtigter Lernalgorithmus die Bayes-optimale Inferenz annähern können: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

Es gibt viele Artikel, die Deep Learning auch mit theoretischen Neurowissenschaften verbinden, wie zum Beispiel die folgenden, die zeigen, dass die Auswirkungen der Backpropagation in biologisch plausiblen neuronalen Architekturen erzielt werden können: https://arxiv.org/pdf/1411.0247.pdf

Natürlich gibt es viele offene Fragen und keine einzige, unumstrittene, einheitliche Theorie, aber das Gleiche gilt für fast jedes Gebiet.


1

Ihr Wikipedia-Zitat ist fraglich, weil Deep Learning gut entwickelt ist. In der Tat gibt es eine [citation needed]auf der Wikipedia-Seite.

Schauen Sie sich https://github.com/terryum/awesome-deep-learning-papers an . Es gibt ungefähr 100 Artikel im Link. Glauben Sie immer noch, dass es beim Deep Learning an "allgemeiner Theorie" mangelt?

Ja. Deep Learning ist schwer zu verstehen, da es ein sehr kompliziertes Modell ist. Das heißt aber nicht, dass wir die Theorien nicht haben.

Vielleicht hilft Ihnen das limePaket und das Papier: "Warum sollte ich Ihnen vertrauen?": Das Erklären der Vorhersagen eines Klassifikators hilft Ihnen. Das Papier schlägt vor, dass wir in der Lage sein sollten, ein kompliziertes Modell (einschließlich Deep Learning) lokal mit einem viel einfacheren Modell zu approximieren.


3
Viele interessante Anwendungen bedeuten nicht, dass diese Anwendungen nach einem strengen Verfahren entwickelt wurden. "Hmm ... vielleicht sollte ich stattdessen 8 Schichten ausprobieren? Ah ... es funktioniert! Großartig, lass uns die Ergebnisse veröffentlichen."
Chris Anderson

2
"Deep Learning ist schwer zu verstehen, weil es ein sehr kompliziertes Modell ist. Aber das bedeutet nicht, dass wir die Theorien nicht haben." Stimmt, aber wir haben auch nicht die Theorien. Es gibt sehr wenig mathematisches Verständnis der Techniken in der Literatur. Die meisten Erklärungen dafür, wie oder warum Deep Learning funktioniert, basieren auf Intuition und Empirismus, was in Ordnung ist, aber keine Theorie imo darstellt.
user27182
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.