Welche veränderbaren Komponenten eines Lernsystems sind für dessen Erfolg oder Misserfolg verantwortlich? Welche Änderungen verbessern die Leistung? Dies wurde als grundlegendes Problem der Kreditvergabe bezeichnet (Minsky, 1963). Es gibt allgemeine Kreditvergabemethoden für universelle Problemlöser, die in verschiedenen theoretischen Sinnen zeitoptimal sind (Abschnitt 6.8). Die vorliegende Umfrage konzentriert sich jedoch auf das engere, aber jetzt kommerziell wichtige Teilgebiet des Deep Learning (DL) in künstlichen neuronalen Netzen (NNs).
Ein standardmäßiges neuronales Netzwerk (NN) besteht aus vielen einfachen, verbundenen Prozessoren, die als Neuronen bezeichnet werden und jeweils eine Folge von realen Aktivierungen erzeugen. Eingangsneuronen werden durch Sensoren aktiviert, die die Umgebung wahrnehmen, andere Neuronen werden durch gewichtete Verbindungen von zuvor aktiven Neuronen aktiviert (Details in Abschnitt 2). Einige Neuronen können die Umgebung beeinflussen, indem sie Aktionen auslösen. Beim Lernen oder Zuweisen von Credits geht es darum, Gewichte zu finden, mit denen der NN das gewünschte Verhalten zeigt, z. B. Autofahren. Abhängig vom Problem und der Art und Weise, wie die Neuronen miteinander verbunden sind, kann ein solches Verhalten lange Kausalketten von Rechenschritten erfordern (Abschnitt 3), in denen jede Stufe die aggregierte Aktivierung des Netzwerks (häufig auf nichtlineare Weise) transformiert. Beim Deep Learning geht es darum, Credits in vielen solchen Phasen genau zuzuweisen.
Flache NN-ähnliche Modelle mit wenigen solchen Stufen gibt es seit vielen Jahrzehnten, wenn nicht Jahrhunderten (Abschnitt 5.1). Modelle mit mehreren aufeinanderfolgenden nichtlinearen Schichten von Neuronen stammen mindestens aus den 1960er Jahren (Abschnitt 5.3) und 1970er Jahren (Abschnitt 5.5). In den 1960er und 1970er Jahren wurde eine effiziente Gradientenabstiegsmethode für lehrerbasiertes betreutes Lernen (SL) in diskreten, differenzierbaren Netzwerken beliebiger Tiefe namens Backpropagation (BP) entwickelt, die 1981 auf NN angewendet wurde (Abschnitt 5.5). Das BP-basierte Training tiefer NNs mit vielen Schichten hatte sich jedoch in den späten 1980er Jahren in der Praxis als schwierig erwiesen (Abschnitt 5.6) und war in den frühen 1990er Jahren zu einem expliziten Forschungsthema geworden (Abschnitt 5.9). DL wurde zum Teil mit Hilfe von Unüberwachtem Lernen (UL) praktisch durchführbar, z. 5,10 (1991), Sec. 5,15 (2006). In den 1990er und 2000er Jahren wurden auch viele Verbesserungen der rein beaufsichtigten DL vorgenommen (Abschnitt 5). Im neuen Jahrtausend haben tiefe NNs endlich breite Aufmerksamkeit auf sich gezogen, hauptsächlich indem sie alternative Methoden des maschinellen Lernens wie Kernelmaschinen (Vapnik, 1995; Scholkopf et al., 1998) in zahlreichen wichtigen Anwendungen übertroffen haben. Tatsächlich haben beaufsichtigte tiefe NNs seit 2009 viele offizielle internationale Mustererkennungswettbewerbe gewonnen (z. B. Abschnitt 5.17, 5.19, 5.21, 5.22), wodurch die ersten übermenschlichen visuellen Mustererkennungsergebnisse in begrenzten Domänen erzielt wurden (Abschnitt 5.19, 2011). Deep NNs sind auch für den allgemeineren Bereich des Reinforcement Learning (RL) relevant geworden, in dem es keinen betreuenden Lehrer gibt (Abschnitt 6). hauptsächlich, indem alternative Methoden des maschinellen Lernens wie Kernelmaschinen (Vapnik, 1995; Scholkopf et al., 1998) in zahlreichen wichtigen Anwendungen übertroffen werden. Tatsächlich haben beaufsichtigte tiefe NNs seit 2009 viele offizielle internationale Mustererkennungswettbewerbe gewonnen (z. B. Abschnitt 5.17, 5.19, 5.21, 5.22), wodurch die ersten übermenschlichen visuellen Mustererkennungsergebnisse in begrenzten Domänen erzielt wurden (Abschnitt 5.19, 2011). Deep NNs sind auch für den allgemeineren Bereich des Reinforcement Learning (RL) relevant geworden, in dem es keinen betreuenden Lehrer gibt (Abschnitt 6). hauptsächlich, indem alternative Methoden des maschinellen Lernens wie Kernelmaschinen (Vapnik, 1995; Scholkopf et al., 1998) in zahlreichen wichtigen Anwendungen übertroffen werden. Tatsächlich haben beaufsichtigte tiefe NNs seit 2009 viele offizielle internationale Mustererkennungswettbewerbe gewonnen (z. B. Abschnitt 5.17, 5.19, 5.21, 5.22), wodurch die ersten übermenschlichen visuellen Mustererkennungsergebnisse in begrenzten Domänen erzielt wurden (Abschnitt 5.19, 2011). Deep NNs sind auch für den allgemeineren Bereich des Reinforcement Learning (RL) relevant geworden, in dem es keinen betreuenden Lehrer gibt (Abschnitt 6). Das Erreichen der ersten übermenschlichen visuellen Mustererkennung führt zu begrenzten Domänen (Abschnitt 5.19, 2011). Deep NNs sind auch für den allgemeineren Bereich des Reinforcement Learning (RL) relevant geworden, in dem es keinen betreuenden Lehrer gibt (Abschnitt 6). Das Erreichen der ersten übermenschlichen visuellen Mustererkennung führt zu begrenzten Domänen (Abschnitt 5.19, 2011). Deep NNs sind auch für den allgemeineren Bereich des Reinforcement Learning (RL) relevant geworden, in dem es keinen betreuenden Lehrer gibt (Abschnitt 6).
Andererseits bin ich mir nicht sicher, ob es unbedingt rentabel ist, eine Taxonomie von sich gegenseitig ausschließenden Buckets für maschinelle Lernstrategien zu erstellen. Ich denke, wir können sagen, dass es Perspektiven gibt, aus denen Modelle als neuronale Netze betrachtet werden können. Ich denke nicht, dass die Perspektive in allen Kontexten unbedingt die beste oder nützlichste ist. Zum Beispiel plane ich immer noch, zufällige Wälder und Bäume mit Farbverläufen als "Baumensembles" zu bezeichnen, anstatt ihre Unterscheidungen aufzuheben und sie "neuronale Netzwerkbäume" zu nennen. Darüber hinaus unterscheidet Schmidhuber NNs von Kernel-Maschinen - auch wenn Kernel-Maschinen einige Verbindungen zu NNs aufweisen -, wenn er schreibt: "Im neuen Jahrtausend haben tiefe NNs endlich breite Aufmerksamkeit erregt. hauptsächlich, indem alternative Methoden des maschinellen Lernens wie Kernel-Maschinen übertroffen werden ... in zahlreichen wichtigen Anwendungen. "