Ich habe einem Vortrag zugehört und diese Folie gesehen:
Wie wahr ist das?
Ich habe einem Vortrag zugehört und diese Folie gesehen:
Wie wahr ist das?
Antworten:
Ich habe den AI StackExchange durchsucht und bin auf eine sehr ähnliche Frage gestoßen : Was unterscheidet Deep Learning von anderen neuronalen Netzwerken?
Da AI StackExchange morgen (wieder) geschlossen wird, kopiere ich die beiden wichtigsten Antworten hier (Benutzerbeiträge unter Lizenz von cc by-sa 3.0 mit Namensnennung erforderlich):
Urheber: mommi84less
Zwei gut zitierte Veröffentlichungen aus dem Jahr 2006 brachten das Forschungsinteresse zurück in die Tiefe des Lernens. In "Ein schneller Lernalgorithmus für Deep-Believe-Netze" definieren die Autoren ein Deep-Believe-Netz als:
[...] dicht verbundene Glaubensnetze, die viele versteckte Schichten haben.
Wir finden fast die gleiche Beschreibung für tiefe Netzwerke in " Gieriges schichtweises Training tiefer Netzwerke" :
Tiefe mehrschichtige neuronale Netze weisen viele Ebenen von Nichtlinearitäten auf [...]
Dann wird in dem Umfragepapier "Repräsentationslernen: Ein Rückblick und neue Perspektiven" Tiefenlernen verwendet, um alle Techniken zu umfassen (siehe auch diesen Vortrag ) und ist definiert als:
[...] Erstellen mehrerer Darstellungsebenen oder Lernen einer Hierarchie von Merkmalen.
Das Adjektiv "tief" wurde daher von den Autoren oben verwendet, um die Verwendung mehrerer nichtlinearer versteckter Schichten hervorzuheben .
Urheber: lejlot
Nur um @ mommi84 Antwort hinzuzufügen.
Deep Learning ist nicht auf neuronale Netze beschränkt. Dies ist ein umfassenderes Konzept als nur die DBNs von Hinton
Erstellen mehrerer Darstellungsebenen oder Lernen einer Hierarchie von Merkmalen.
Es ist also ein Name für Lernalgorithmen für hierarchische Darstellungen . Es gibt tiefe Modelle, die auf Hidden-Markov-Modellen, bedingten Zufallsfeldern, Support-Vektor-Maschinen usw. basieren. Das Einzige, was häufig vorkommt, ist, dass die Forscher statt des (in den 90er Jahren beliebten) Feature-Engineerings versuchten, eine Reihe von Features zu erstellen, nämlich das am besten zur Lösung eines Klassifizierungsproblems - diese Maschinen können ihre eigene Darstellung aus den Rohdaten erarbeiten. Insbesondere - angewendet auf die Bilderkennung (Rohbilder) - erzeugen sie eine mehrstufige Darstellung, die aus Pixeln, dann Linien, dann Gesichtsmerkmalen (wenn wir mit Gesichtern arbeiten) wie Nasen, Augen und schließlich - verallgemeinerten Gesichtern besteht. Wenn sie auf die Verarbeitung natürlicher Sprachen angewendet werden, konstruieren sie ein Sprachmodell, das Wörter zu Brocken, Brocken zu Sätzen usw. verbindet.
Eine weitere interessante Folie:
Der Schulabbrecher von Hinton im Jahr 2006 gilt als die größte Verbesserung im Bereich des Tiefenlernens in den letzten 10 Jahren, da er viel Überanpassung reduziert.
Dies ist sicherlich eine Frage, die Kontroversen hervorrufen wird.
Wenn neuronale Netze beim Tiefenlernen verwendet werden, werden sie in der Regel auf eine Weise trainiert, die in den 1980er Jahren nicht verwendet wurde. Insbesondere Strategien, die einzelne Schichten des neuronalen Netzwerks vortrainieren, um Merkmale auf verschiedenen Ebenen zu erkennen, sollen das Trainieren von Netzwerken mit mehreren Schichten erleichtern. Das ist sicherlich eine Neuentwicklung seit den 1980er Jahren.
Der Schlüssel ist das Wort "tief" im tiefen Lernen. Jemand (vergessen ref) in den 80er Jahren bewiesen , dass alle nicht-linearen Funktionen durch eine angenähert werden könnten einzelne Schicht neuronales Netz mit, natürlich, eine ausreichend große Anzahl von versteckten Einheiten. Ich denke, dieses Ergebnis hat wahrscheinlich die Menschen davon abgehalten, in früheren Zeiten ein tieferes Netzwerk zu suchen.
Die Tiefe des Netzwerks hat sich jedoch als das entscheidende Element in der hierarchischen Darstellung erwiesen, das den Erfolg vieler heutiger Anwendungen bestimmt.
Nicht genau, der ANN startet in den 50er Jahren. Schauen Sie sich eine der Präsentationen von Yann LeCun an, um ein authentisches und umfassendes Intro zu erhalten. http://www.cs.nyu.edu/~yann/talks/lecun-ranzato-icml2013.pdf