Probleme mit und Alternativen zu Deep Learning-Ansätzen?

16

In den letzten 50 Jahren hat sich der Anstieg / Abfall / Anstieg der Popularität neuronaler Netze als eine Art "Barometer" für die KI-Forschung erwiesen.

Aus den Fragen auf dieser Website geht hervor, dass die Leute daran interessiert sind, Deep Learning (DL) auf eine Vielzahl schwieriger Probleme anzuwenden.

Ich habe daher zwei Fragen:

Praktizierende - Was sind für Sie die Haupthindernisse, um DL "out of the box" auf Ihr Problem anzuwenden?
Forscher - Welche Techniken verwenden Sie (oder haben sie entwickelt), um praktische Probleme anzugehen? Befinden sie sich in DL oder bieten sie einen alternativen Ansatz an?

deep-learning

— NietzscheanAI
quelle

3

Wenn Sie zwei Fragen haben, sollten Sie zwei Fragen stellen.

— Bpachev

1

Sie sind eindeutig miteinander verbunden.

— NietzscheanAI

3

Zusammenfassend lässt sich sagen, dass das angewandte Deep Learning zwei Hauptprobleme aufweist.

Das erste ist so rechnerisch, dass es erschöpfend ist. Normale CPUs benötigen viel Zeit, um selbst die Grundberechnung / das Training mit Deep Learning durchzuführen. GPUs werden daher jedoch empfohlen, auch wenn sie in vielen Situationen möglicherweise nicht ausreichen. Typische Deep-Learning-Modelle unterstützen nicht die theoretische Zeit, um in Polynomen zu sein. Wenn wir uns jedoch die relativ einfacheren Modelle in ML für die gleichen Aufgaben ansehen, haben wir zu oft mathematische Garantien dafür, dass die für solche einfacheren Algorithmen erforderliche Trainingszeit in Polynomen liegt. Das ist für mich zumindest wahrscheinlich der größte Unterschied.

Es gibt jedoch Lösungen, um diesem Problem entgegenzuwirken. Ein Hauptansatz besteht darin, DL-Algorithmen nur für eine Reihe von Iterationen zu optimieren (anstatt die globalen Lösungen in der Praxis zu betrachten, optimieren Sie einfach den Algorithmus für eine gute lokale Lösung, während das Kriterium für "Gut" vom Benutzer definiert wird).
Ein weiteres Problem, das für junge Deep-Learning-Enthusiasten möglicherweise ein wenig kontrovers ist, ist, dass Deep-Learning-Algorithmen kein theoretisches Verständnis und keine theoretischen Überlegungen aufweisen. Deep Neural Networks wurden in vielen Situationen erfolgreich eingesetzt, darunter Handschrifterkennung, Bildverarbeitung, selbstfahrende Autos, Signalverarbeitung, NLP und biomedizinische Analyse. In einigen dieser Fälle haben sie sogar die Menschen übertroffen. Allerdings sind sie theoretisch nicht so fundiert wie die meisten statistischen Methoden.

Ich werde nicht ins Detail gehen, sondern das überlasse ich Ihnen. Es gibt Vor- und Nachteile für jeden Algorithmus / jede Methode, und DL ist keine Ausnahme. Es ist sehr nützlich, wie sich in vielen Situationen gezeigt hat und jeder junge Data Scientist muss mindestens die Grundlagen von DL lernen. Bei relativ einfachen Problemen ist es jedoch besser, bekannte statistische Methoden zu verwenden, da diese viele theoretische Ergebnisse / Garantien enthalten. Außerdem ist es aus Lernsicht immer besser, mit einfachen Ansätzen zu beginnen und diese zuerst zu beherrschen.

— Sibghat Ullah
quelle

Mit "in Polynomen" meinen Sie "in Polynomzeit", richtig? Haben Sie eine Referenz, die das unterstützt?

— NietzscheanAI

Ja, genau das meine ich. Sicher, es kann in vielen Situationen bewiesen werden ... Ich beginne mit dem einfachsten möglichen Beispiel: Nur ein Netzwerk mit drei Knoten und zwei Schichten zu trainieren, ist ein NP-vollständiges Problem, wie hier gezeigt. ( Citeseerx.ist.psu. edu / viewdoc /… ). Denken Sie daran, dass dieses Papier sehr alt ist, und jetzt haben wir mehr Ideen zur Verbesserung in der Praxis mit einigen Heuristiken, aber theoretisch gibt es noch keine verbesserten Ergebnisse.

— Sibghat Ullah

Ein weiterer schöner Artikel zum selben Thema, in dem auch einige Tricks zur Verbesserung der Trainingszeit in der Praxis beschrieben sind. ( pdfs.semanticscholar.org/9499/… )

— Sibghat Ullah

Angenommen, wir möchten den Preis für etwas vorhersagen. Einfache lineare Regression mit kleinster quadratischer Anpassung hat eine Polynomzeit, wohingegen die Lösung des gleichen Problems mit neuronalen Netzen (selbst das einfachste von ihnen) zu einem vollständigen NP-Problem führt. Das ist ein sehr großer Unterschied. Schließlich müssen Sie einen Algorithmus für eine bestimmte Aufgabe sorgfältig auswählen. Beispielsweise hat die Least-Square-Anpassung bestimmte Annahmen, einschließlich "Die ideale Funktion, die der Algorithmus lernt, kann als lineare Merkmalskombination gelernt werden". Wenn diese Annahme nicht gültig ist, werden auch die Ergebnisse erzielt.

— Sibghat Ullah

Nur weil ein Problem (in diesem Fall das Finden optimaler Gewichte) NP-vollständig ist, bedeutet dies natürlich nicht, dass es keine effizienten praktischen Methoden gibt, um gute Gewichte zu finden ...

— NietzscheanAI

4

Ich habe sehr wenig Erfahrung mit ML / DL, um mich als einen der beiden Praktiker zu bezeichnen, aber hier ist meine Antwort auf die erste Frage:

Im Kern löst DL die Aufgabe der Klassifikation gut. Nicht jedes praktische Problem kann in Bezug auf die Klassifizierung umformuliert werden. Die Klassifizierungsdomäne muss im Voraus bekannt sein. Obwohl die Klassifizierung auf jeden Datentyp angewendet werden kann, muss der NN mit Stichproben der spezifischen Domäne trainiert werden, auf die er angewendet werden soll. Wenn die Domain irgendwann gewechselt wird, während das gleiche Modell (NN-Struktur) beibehalten wird, muss sie mit neuen Samples umgeschult werden. Darüber hinaus haben selbst die besten Klassifikatoren "Lücken" - Widersprüchliche Beispiele können leicht aus einer Trainingsstichprobe konstruiert werden, so dass Änderungen für den Menschen nicht wahrnehmbar sind, aber vom trainierten Modell falsch klassifiziert werden.

— Iliyan Bobev
quelle

2

"Klassifizierung" kann als Sonderfall der "Regression" betrachtet werden, was wahrscheinlich eine bessere Charakterisierung von DL darstellt.

— NietzscheanAI

3

Frage 2. Ich recherchiere, ob Hyper-dimensionales Computing eine Alternative zu Deep Learning ist. Hyper-D verwendet sehr lange Bitvektoren (10.000 Bit) zum Codieren von Informationen. Die Vektoren sind zufällig und als solche ungefähr orthogonal. Durch Gruppieren und Mitteln einer Sammlung solcher Vektoren kann eine "Menge" gebildet und später abgefragt werden, um festzustellen, ob ein unbekannter Vektor zur Menge gehört. Das Set kann als Konzept oder als Verallgemeinerung von Bildern usw. angesehen werden. Das Training ist sehr schnell, ebenso wie die Erkennung. Was getan werden muss, ist, die Bereiche zu simulieren, in denen Deep Learning erfolgreich war, und Hyper-D damit zu vergleichen.

— Douglas G Danforth
quelle

Interessant. Wie unterscheidet sich das von Kanervas 'Sparse Distributed Memory'?

— NietzscheanAI

Beide werden von Pentti Kanerva entwickelt. Suchen Sie nach Hyperdimensionales Computing, um den Unterschied zu sehen. Zu lange, um hier zu antworten.

— Douglas G Danforth

1

Aus mathematischer Sicht ist eines der Hauptprobleme in tiefen Netzwerken mit mehreren Schichten das Verschwinden oder instabile Gefälle . Jede zusätzliche ausgeblendete Ebene lernt erheblich langsamer und macht den Vorteil der zusätzlichen Ebene nahezu zunichte.

Moderne Deep-Learning-Ansätze können dieses Verhalten verbessern, aber in einfachen, altmodischen neuronalen Netzen ist dies ein bekanntes Problem. Sie können eine gut geschriebene Analyse finden hier für tiefere Studie.

— Demento
quelle