Welche Antwort möchte TCS auf die Frage "Warum funktionieren neuronale Netze so gut?"


52

Mein Ph.D. ist in reiner Mathematik, und ich gebe zu, ich weiß nicht viel (dh nichts) über theoretische CS. Ich habe jedoch begonnen, nicht-akademische Optionen für meine Karriere zu erkunden und mich mit maschinellem Lernen vertraut zu machen. Dabei stieß ich auf Aussagen wie "Niemand versteht, warum neuronale Netze gut funktionieren", die ich interessant fand.

Meine Frage ist im Wesentlichen, welche Art von Antworten die Forscher wollen. Folgendes habe ich in meiner kurzen Suche zum Thema gefunden:

  • Die Algorithmen, die einfache neuronale Netze implementieren, sind ziemlich einfach.
  • Der Prozess der SGD ist mathematisch gut bekannt, ebenso wie die statistische Theorie.
  • Der universelle Näherungssatz ist leistungsfähig und bewährt.
  • Es gibt eine schöne aktuelle Veröffentlichung https://arxiv.org/abs/1608.08225, die im Wesentlichen die Antwort gibt, dass die universelle Approximation viel mehr ist, als wir in der Praxis tatsächlich benötigen, da wir stark vereinfachende Annahmen über die Funktionen treffen können, die wir mit der modellieren wollen neurales Netzwerk.

In der oben genannten Veröffentlichung heißt es (umschrieben): "GOFAI-Algorithmen werden analytisch vollständig verstanden, aber viele ANN-Algorithmen werden nur heuristisch verstanden." Konvergenztheoreme für die implementierten Algorithmen sind ein Beispiel für analytisches Verständnis, das wir anscheinend über neuronale Netze haben. Eine Aussage auf dieser Ebene der Allgemeinheit sagt mir also nicht viel darüber aus, was bekannt oder unbekannt ist oder was als Antwort angesehen wird . "

Die Autoren schließen daraus, dass Fragen wie effektive Grenzen der Größe des neuronalen Netzes, die zur Approximation eines gegebenen Polynoms benötigt werden, offen und interessant sind. Was sind andere Beispiele für mathematisch spezifische analytische Fragen, die beantwortet werden müssen, um zu sagen, dass wir neuronale Netze "verstehen"? Gibt es Fragen, die in rein mathematischer Sprache beantwortet werden können?

(Ich denke in diesem Artikel speziell an Methoden der Darstellungstheorie, weil ich die Physik verwende - und selbstsüchtig, weil ich sie studiere. Ich kann mir aber auch Bereiche wie die Kombinatorik / Graphentheorie oder die algebraische Geometrie vorstellen und Topologie, die brauchbare Tools bereitstellt.)


3
Ist GOFAI wirklich so gut verstanden? Eine Menge von GOFAI scheint sich auf die SAT-Lösung, das archetypische NP-vollständige Problem, zu beschränken. Moderne SAT-Löser funktionieren in der Praxis bemerkenswert gut, auch wenn sie der vorhandenen Theorie nicht entsprechen sollten. Warum?
Martin Berger

Es gibt wirklich vor- und nachschulisches Lernen / Veränderung / Geschichte in diesem Bereich und es ist ein großer Paradigmenwechsel in diesem Bereich. Deep Learning begann erst in der letzten Hälfte des Jahrzehnts. Die einfache Antwort ist, dass neuronale Netze willkürlich komplexe Funktionen darstellen können und dass die Komplexität bei tiefen neuronalen Netzen jetzt sehr weit fortgeschritten ist. Eine andere Antwort ist, dass die untersuchten Probleme und vielleicht sogar die "Realität im Allgemeinen" "aus Merkmalen aufgebaut" sind und ANNs nun in der Lage sind, sehr komplexe Merkmale zu lernen.
VZN

Ich glaube nicht, dass die Leute hier wirklich nach "einer Antwort" suchen. Sie versuchen, neuronale Netze zu verwenden, um Probleme zu lösen, und wenn das Problem tatsächlich gelöst ist, ist es in Ordnung. Zu wissen, wie die Netzwerke diese Lösung erreicht haben, ist hier nicht unbedingt von Interesse. Es interessiert niemanden, ob es sich um eine undurchsichtige schwarze Schachtel handelt, solange sie das Problem löst.
xji

Antworten:


38

Es gibt eine Reihe von "no free lunch" -Sätzen im maschinellen Lernen, die ungefähr besagen, dass es keinen Master-Lernalgorithmus geben kann, der eine einheitlich bessere Leistung erzielt als alle anderen Algorithmen (siehe z. B. hier http: //www.no-free- lunch.org/ ). Natürlich kann tiefes Lernen ohne große Schwierigkeiten "gebrochen" werden: http://www.evolvingai.org/fooling

Um nachweislich effektiv zu sein, benötigt ein Lernender eine induktive Verzerrung, dh einige vorherige Annahmen über die Daten. Beispiele für eine induktive Vorspannung sind Annahmen über eine geringe oder spärliche Datendimension oder über eine gute Faktorisierung der Verteilung oder über einen großen Spielraum usw. Verschiedene erfolgreiche Lernalgorithmen nutzen diese Annahmen, um Verallgemeinerungsgarantien zu beweisen. Zum Beispiel funktioniert (lineares) SVM gut, wenn die Daten räumlich gut getrennt sind. sonst - nicht so sehr.

Ich denke, die größte Herausforderung beim Deep Learning ist es, zu verstehen, welche induktive Tendenz es gibt. Mit anderen Worten: Wenn die Trainingsdaten diese Annahmen erfüllen, kann ich etwas über die Verallgemeinerungsleistung garantieren. (Andernfalls sind alle Wetten deaktiviert.)

Update (Sep-2019): In den zwei Jahren seit meiner Antwort wurden große Fortschritte beim Verständnis der induktiven Vorspannung erzielt, die in verschiedenen DL-Algorithmen und verwandten Algorithmen impliziert ist. Eine der wichtigsten Erkenntnisse ist, dass der tatsächlich verwendete Optimierungsalgorithmus wichtig ist, da eine einheitliche Konvergenz nicht erklären kann, warum ein stark überparametrisiertes System wie ein großer ANN überhaupt lernen kann. Es stellt sich heraus, dass die verschiedenen Optimierungsmethoden (wie SGD) implizit in Bezug auf verschiedene Normen (wie ) regulieren . In diesem hervorragenden Vortrag finden Sie weitere Beispiele und vieles mehr: https://www.youtube.com/watch?v=zK84N6ST9sM2


Es sollte beachtet werden, dass gegnerische Beispiele nicht nur für tiefe neuronale Netze gelten. Sie können auch leicht für lineare und logistische Regression konstruiert werden, zum Beispiel: arxiv.org/pdf/1412.6572.pdf
Lenar Hoyt

1
Ja, aber lineare und logistische Regression sind theoretisch viel besser zu verstehen.
Aryeh

2
Es sollte vielleicht auch angemerkt werden, dass die NFL-Theoreme beim praktischen maschinellen Lernen möglicherweise keine große Rolle spielen, da sich NFL zwar mit der Klasse aller Funktionen befasst, die Probleme der realen Welt jedoch typischerweise auf z. B. glatte Funktionen oder sogar spezifischere Funktionen wie die beschränkt sind diejenigen, die in der Zeitung von Lin und Tegmark betrachtet werden. Es könnte möglich sein, induktive Vorurteile zu finden, die alle Lernprobleme abdecken, an denen wir interessiert sind.
Lenar Hoyt,

4
Dann sollten wir zuerst diesen Raum "aller Lernprobleme, an denen wir interessiert sind" formalisieren.
Aryeh

1
Das scheint sich auf jeden Fall zu lohnen, insbesondere im Hinblick auf die KI-Sicherheit. Wir müssen zuverlässig spezifizieren können, was ein Algorithmus für maschinelles Lernen lernen soll.
Lenar Hoyt

26

Es gibt zwei Hauptlücken in unserem Verständnis neuronaler Netze: Optimierungshärte und Generalisierungsleistung.

Das Trainieren eines neuronalen Netzwerks erfordert die Lösung eines hochgradig nicht konvexen Optimierungsproblems in hohen Dimensionen. Gegenwärtige Trainingsalgorithmen basieren alle auf einem Gefälle, das nur die Konvergenz zu einem kritischen Punkt (lokales Minimum oder Sattel) garantiert. Tatsächlich haben Anandkumar & Ge 2016 kürzlich bewiesen, dass das Finden eines selbst lokalen Minimums NP-schwer ist, was bedeutet, dass (unter der Annahme von P! = NP) "schlechte", schwer zu entweichende Sattelpunkte in der Fehleroberfläche existieren.
Diese Trainingsalgorithmen sind jedoch für viele praktische Probleme empirisch wirksam, und wir wissen nicht warum.
Es gab theoretische Arbeiten wie Choromanska et al. 2016 und Kawaguchi 2016die beweisen, dass die lokalen Minima unter bestimmten Annahmen im Wesentlichen so gut sind wie die globalen Minima, aber die Annahmen, die sie treffen, sind etwas unrealistisch und gehen nicht auf das Problem der schlechten Sattelpunkte ein.

Die andere Hauptlücke in unserem Verständnis ist die Verallgemeinerungsleistung: Wie gut schneidet das Modell an neuartigen Beispielen ab, die während des Trainings nicht gesehen wurden? Es ist leicht zu zeigen, dass an der Grenze einer unendlichen Anzahl von Trainingsbeispielen (abgetastet aus einer stationären Verteilung) der Trainingsfehler gegen den erwarteten Fehler an neuartigen Beispielen konvergiert (vorausgesetzt, Sie könnten zum globalen Optimum trainieren), aber seit wir Wir haben keine unendlichen Trainingsbeispiele, wir sind daran interessiert, wie viele Beispiele benötigt werden, um einen bestimmten Unterschied zwischen Training und Generalisierungsfehler zu erzielen. Die statistische Lerntheorie untersucht diese Verallgemeinerungsgrenzen.
Empirisch erfordert das Trainieren eines großen modernen neuronalen Netzwerks eine Vielzahl von Trainingsbeispielen (Big Data, wenn Sie Schlagworte mögen), die jedoch nicht so monumental sind, dass sie praktisch nicht durchführbar sind. Wendet man jedoch die bekanntesten Grenzen der statistischen Lerntheorie an (zum Beispiel Gao & Zhou 2014 ), erhält man normalerweise diese unvorstellbar großen Zahlen. Daher sind diese Grenzen zumindest für praktische Probleme weit davon entfernt, eng zu sein.
Einer der Gründe könnte sein, dass diese Grenzen dazu neigen, nur sehr wenig Einfluss auf die Datenerzeugungsverteilung zu nehmen, weshalb sie die schlechteste Leistung gegenüber widrigen Umgebungen widerspiegeln, während "natürliche" Umgebungen dazu neigen, "lernbarer" zu sein.
Es ist möglich, verteilungsabhängige Verallgemeinerungsgrenzen zu schreiben, aber wir wissen nicht, wie man eine Verteilung über "natürliche" Umgebungen formal charakterisiert. Ansätze wie die algorithmische Informationstheorie sind nach wie vor unbefriedigend.
Deshalb wissen wir immer noch nicht, warum neuronale Netze ohne Überanpassung trainiert werden können.

Darüber hinaus sollte beachtet werden, dass diese beiden Hauptthemen in einer noch wenig verstandenen Weise miteinander verbunden zu sein scheinen: Die Verallgemeinerungsgrenzen der statistischen Lerntheorie gehen davon aus, dass das Modell am Trainingssatz auf das globale Optimum trainiert wird, jedoch in einem praktischen Rahmen würde niemals ein neuronales Netz bis zur Konvergenz bis zu einem Sattelpunkt trainieren, da dies typischerweise zu einer Überanpassung führen würde. Stattdessen beenden Sie das Training, wenn der Fehler in einem durchgehaltenen Überprüfungssatz (der ein Proxy für den Generalisierungsfehler ist) nicht mehr behoben wird. Dies wird als "frühes Anhalten" bezeichnet.
In gewisser Hinsicht ist all diese theoretische Forschung zur Begrenzung des Generalisierungsfehlers des globalen Optimums möglicherweise irrelevant: Wir können ihn nicht nur nicht effizient finden, sondern würden es auch nicht wollen, selbst wenn wir könnten, da er eine schlechtere Leistung erbringen würde neue Beispiele als viele "suboptimale" Lösungen.
Es kann der Fall sein, dass die Optimierungshärte kein Fehler des neuronalen Netzwerks ist, im Gegenteil, vielleicht können neuronale Netzwerke überhaupt genau arbeiten, weil sie schwer zu optimieren sind.
Alle diese Beobachtungen sind empirisch und es gibt keine gute Theorie, die sie erklärt. Es gibt auch keine Theorie, die erklärt, wie die Hyperparameter neuronaler Netze eingestellt werden (Breite und Tiefe versteckter Schichten, Lernraten, Architekturdetails usw.). Praktiker verwenden ihre Intuition, die durch Erfahrung und viele Versuche und Irrtümer geschliffen wurde, um effektive Werte zu erzielen, während eine Theorie es uns ermöglichen könnte, neuronale Netze systematischer zu entwerfen.


11

Eine weitere Auseinandersetzung mit dieser Frage, um @ Aryehs Bemerkungen zu ergänzen: Für viele andere Lernmodelle kennen wir die "Form" des Hypothesenraums. SVMs sind das beste Beispiel dafür, da Sie einen linearen Separator in einem (möglicherweise hochdimensionalen) Hilbert-Raum finden.

Für neuronale Netze im Allgemeinen gibt es keine so klare Beschreibung oder auch nur eine Annäherung. Und eine solche Beschreibung ist wichtig, damit wir verstehen, was genau ein neuronales Netzwerk in den Daten findet.


Was würden Sie als "Form" des Hypothesenraums bezeichnen? :) Beantwortet unser Satz 2.1 (Seite 3) einige Ihrer Fragen: eccc.weizmann.ac.il/report/2017/098 ? : D
Anirbit

4

Das Prinzip des Informationsengpasses wurde vorgeschlagen, um den Erfolg tiefer Kernnetzwerke zu erklären.

Hier ist ein Zitat aus dem Quanta-Magazin

Letzten Monat bot ein YouTube-Video eines Konferenzgesprächs in Berlin, das von Forschern der künstlichen Intelligenz verbreitet wurde, eine mögliche Antwort. In dem Vortrag präsentierte Naftali Tishby, ein Informatiker und Neurowissenschaftler der Hebräischen Universität von Jerusalem, Beweise für eine neue Theorie, die erklärt, wie tiefes Lernen funktioniert. Tishby argumentiert, dass tiefe neuronale Netze nach einem Verfahren lernen, das als „Informationsengpass“ bezeichnet wird und das er und zwei Mitarbeiter 1999 erstmals rein theoretisch beschrieben haben Informationen durch einen Engpass, wobei nur die Funktionen erhalten bleiben, die für allgemeine Konzepte am relevantesten sind.

Verweise:

1- Deep Learning und das Prinzip des Informationsengpasses , Naftali Tishby und Noga Zaslavsky

2- Öffnen der Black Box von Deep Neural Networks über Information , Ravid Shwartz-Ziv und Naftali Tishby

3- Konferenzvideo: Informationstheorie des tiefen Lernens von Naftali Tishby


1

Ich würde sagen, wir müssen noch einen effizienten Algorithmus für das Training tiefer neuronaler Netze finden. Ja, SGD funktioniert in der Praxis gut, aber es wäre sehr schön, einen besseren Algorithmus zu finden, der die Konvergenz zum globalen Minimum garantiert.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.