Welche Modelle könnten in naher Zukunft neuronale Netze ersetzen?


Antworten:


4

Dies geht rückwärts, folgt aber irgendwie der Logik der Argumente.

In Bezug auf die Effizienz sehe ich einige Hauptprobleme bei klassischen neuronalen Netzen.

Overhead für Datenerfassung und Vorverarbeitung

Große neuronale Netze erfordern zum Trainieren viele Daten. Die Menge kann abhängig von der Größe des Netzwerks und der Komplexität der Aufgabe variieren, ist jedoch in der Regel proportional zur Anzahl der Gewichte. Für einige überwachte Lernaufgaben gibt es einfach nicht genügend qualitativ hochwertige beschriftete Daten. Das Sammeln großer Mengen spezialisierter Trainingsdaten kann Monate oder sogar Jahre dauern, und die Kennzeichnung kann umständlich und unzuverlässig sein. Dies kann teilweise durch Datenerweiterung gemildert werden, was bedeutet, dass mehr Beispiele aus den bereits vorhandenen "synthetisiert" werden, aber es ist kein Allheilmittel.

Trainingszeit vs. Energiekompromiss

Die Lernrate ist normalerweise ziemlich gering, so dass der Trainingsfortschritt langsam ist. Ein großes Modell, dessen Training auf einer Desktop-CPU Wochen dauern kann, kann beispielsweise in zwei Stunden mit einem GPU-Cluster trainiert werden, der mehrere kW Strom verbraucht. Dies ist aufgrund der Art des Trainingsverfahrens ein grundlegender Kompromiss. Die GPUs werden jedoch immer effizienter - beispielsweise ermöglicht die neue GPU-Architektur von nVidia Volta 15,7 TFLOPs bei einem Verbrauch von weniger als 300 W.

Nichtübertragbarkeit

Derzeit erfordert praktisch jedes unterschiedliche Problem, dass ein benutzerdefiniertes neuronales Netzwerk entworfen, geschult und bereitgestellt wird. Während oft die Lösung funktioniert, ist es Art von gesperrt in dieses Problem. Zum Beispiel ist AlphaGo bei Go brillant, aber es wäre hoffnungslos, ein Auto zu fahren oder Musikempfehlungen zu geben - es wurde einfach nicht für solche Aufgaben entwickelt. Diese überwältigende Redundanz ist meiner Ansicht nach ein großer Nachteil neuronaler Netze und ein großes Hindernis für den Fortschritt der neuronalen Netzforschung im Allgemeinen. Es gibt ein ganzes Forschungsgebiet namens TransferlernenHier geht es darum, Wege zu finden, wie ein für eine Aufgabe geschultes Netzwerk auf eine andere Aufgabe angewendet werden kann. Dies hängt häufig mit der Tatsache zusammen, dass möglicherweise nicht genügend Daten vorhanden sind, um ein Netzwerk bei der zweiten Aufgabe von Grund auf zu trainieren. Daher ist es sehr ansprechend, ein vorab trainiertes Modell mit einer zusätzlichen Optimierung verwenden zu können.


Der erste Teil der Frage ist schwieriger. Abgesehen von rein statistischen Modellen habe ich keine herausragenden Ansätze für maschinelles Lernen gesehen, die sich grundlegend von neuronalen Netzen unterscheiden. Es gibt jedoch einige interessante Entwicklungen, die erwähnenswert sind, da sie einige der oben genannten Ineffizienzen beheben.

Neuromorphe Chips

Zuerst ein bisschen Hintergrund.

Spiking Neuronale Netze haben ein enormes Potenzial an Rechenleistung. Tatsächlich wurde nachgewiesen, dass sie strikt leistungsfähiger sind als klassische neuronale Netze mit Sigmoidaktivierungen.

Hinzu kommt , dass spiking neuronale Netze haben ein intrinsisches Verständnis der Zeit - etwas , das eine große Hürde für klassische Netzwerke seit ihrer Gründung gewesen. Darüber hinaus sind Spiking-Netzwerke ereignisgesteuert , was bedeutet, dass Neuronen nur dann funktionieren, wenn ein Signal eingeht. Dies steht im Gegensatz zu klassischen Netzwerken, in denen jedes Neuron unabhängig von seiner Eingabe bewertet wird (dies ist wiederum nur eine Folge des Bewertungsverfahrens, das normalerweise als Multiplikation von zwei dichten Matrizen implementiert wird). Spiking-Netzwerke verwenden daher ein spärliches Codierungsschema, was bedeutet, dass zu einem bestimmten Zeitpunkt nur ein kleiner Teil der Neuronen aktiv ist.

Die spärliche spike-basierte Codierung und der ereignisgesteuerte Betrieb eignen sich nun für hardwarebasierte Implementierungen von Spike-Netzwerken, die als neuromorphe Chips bezeichnet werden . Beispielsweise kann der TrueNorth- Chip von IBM 1 Million Neuronen und 256 Millionen Verbindungen simulieren, während durchschnittlich nur etwa 100 mW Leistung verbraucht werden. Dies ist um Größenordnungen effizienter als die aktuellen nVidia-GPUs. Neuromorphe Chips können die Lösung für den oben erwähnten Kompromiss zwischen Trainingszeit und Energie sein.

Auch Memristoren sind eine relativ neue, aber sehr vielversprechende Entwicklung. Grundsätzlich ist ein Memristor ein grundlegendes Schaltungselement, das einem Widerstand sehr ähnlich ist, dessen variabler Widerstand jedoch proportional zur Gesamtmenge des Stroms ist, der über seine gesamte Lebensdauer durch ihn geflossen ist. Dies bedeutet im Wesentlichen, dass ein "Speicher" der durch ihn fließenden Strommenge aufrechterhalten wird. Eine der aufregenden Anwendungsmöglichkeiten von Memristoren ist die äußerst effiziente Modellierung von Synapsen in Hardware.

Verstärkung Lernen und Evolution

Ich denke, diese sind erwähnenswert, weil sie vielversprechende Kandidaten sind, um das Problem der Nichtübertragbarkeit anzugehen. Diese sind nicht auf neuronale Netze beschränkt. Da sie von Belohnungen gesteuert werden, sind RL und Evolution theoretisch in einer generischen Umgebung auf jede Aufgabe anwendbar, bei der es möglich ist, eine Belohnung oder ein Ziel zu definieren, das ein Agent erreichen soll. Dies ist nicht unbedingt trivial, aber viel allgemeiner als der übliche fehlergesteuerte Ansatz, bei dem der Lernagent versucht, den Unterschied zwischen seiner Ausgabe und einer Grundwahrheit zu minimieren. Der wichtigste Punkt hier ist , über Transfer Lernen: Im Idealfall, einen ausgebildeten Agenten auf eine andere Aufgabe der Anwendung sollte so einfach , das Ziel oder eine Belohnung (noch auf dieser Ebene sind sie nicht ganz, aber ...) als zu ändern.


"Streng leistungsfähiger", schreibt Maass in seiner Arbeit von 1996, behauptet jedoch mathematische Strenge und definiert die Rechenleistung nicht. Darüber hinaus wurde 1996 geschrieben, als Sigmoid-Aktivierungsfunktionen populär waren, was sie heute nicht mehr sind, gerade weil sie für eine Vielzahl von Szenarien nicht so zuverlässig oder so schnell wie einfachere Aktivierungsfunktionen konvergieren. Maass erwähnt Konvergenz in dem Artikel nur zweimal und gibt nicht an, wie Konvergenz auftritt, was das Fehlen der Definition von Rechenleistung in Bezug auf maschinelle Lernziele weiter unterstreicht.
FauChristian

Der Zusammenhang zwischen RL und Evolution ist unklar. Beziehen Sie sich auf eine Kombination aus einem genetischen Algorithmus und RL? Wenn ja, wie lautet die Referenz?
FauChristian

@ FauChristian Auch wenn Sie nicht die ganze Arbeit lesen, ist die Definition der Rechenfähigkeit in der Zusammenfassung (zweiter Satz) angegeben:In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
Cantordust

@ FauChristian Sigmoid-Aktivierungen sind immer noch sehr lebendig und munter. Zum Beispiel verwenden LSTMs Sigmoid-Aktivierungen für die Tore, Softmax (normalisierte Sigmoide) ist immer noch das Beste, was wir für die Klassifizierung in mehreren Klassen haben usw. "Einfachere" Aktivierungen sind nicht unbedingt besser - die ursprüngliche ReLU ( max(0, x)) ist sehr gefährdet stecken bleiben x < 0, was zu toten Neuronen führt. In jedem Fall geht es um die Rechenleistung von Spike-Netzen und deren hocheffiziente Hardware-Implementierung im Hinblick auf den Stromverbrauch.
Cantordust

@FauChristian Ich ziehe keine Parallelen zwischen RL und Evolution. Ich gebe sie als Beispiele für vielversprechende Ansätze zur Behebung einer bestimmten Art von Ineffizienz, nämlich die Notwendigkeit, für jedes einzelne Problem, das Sie zur Hand haben, eine Lösung (sei es ein NN oder etwas anderes) von Hand zu finden. Idealerweise sollten Sie in der Lage sein, einen generischen Löser zu entwerfen, der automatisch von RL und / oder Evolution für das jeweilige Problem optimiert wird und ausschließlich auf einem übergeordneten Ziel basiert.
Cantordust

1

Neuronale Netze ersetzen

Möglicherweise gibt es neue Algorithmen, die neuronale Netze ersetzen können. Eines der Merkmale neuronaler Netze ist jedoch, dass sie einfache Elemente verwenden, die jeweils geringe Anforderungen an die Rechenressourcen in geometrischen Mustern stellen.

Künstliche Neuronen können parallel ausgeführt werden (ohne CPU-Zeitteilung oder Schleifenbildung), indem die Berechnungen DSP-Geräten oder anderer paralleler Computerhardware zugeordnet werden. Dass die vielen Neuronen im Wesentlichen gleich sind, ist daher ein starker Vorteil.

Was würden wir ersetzen?

Wenn wir algorithmische Ersetzungen für neuronale Netze betrachten, implizieren wir, dass ein neuronales Netzdesign ein Algorithmus ist. Es ist nicht.

Ein neuronales Netz ist ein Ansatz zur Konvergenz auf einer Echtzeitschaltung, um eine nichtlineare Transformation von Eingabe zu Ausgabe durchzuführen, basierend auf einer Formulierung dessen, was optimal ist. Eine solche Formulierung kann die Minimierung eines Maßes für Fehler oder Abweichung von einem definierten Ideal sein. Es kann ein Maß für das Wohlbefinden sein, das maximiert werden muss.

Die Quelle der Fitnessbestimmung für ein bestimmtes Netzwerkverhalten kann intern sein. Wir nennen das unbeaufsichtigtes Lernen. Es kann extern sein, was wir als überwacht bezeichnen, wenn die externen Fitnessinformationen mit Eingabevektoren in Form gewünschter Ausgabewerte gekoppelt sind, die wir als Bezeichnungen bezeichnen.

Fitness kann auch extern als Skalar oder Vektor entstehen, der nicht mit den Eingabedaten gekoppelt ist, sondern in Echtzeit, was wir Verstärkung nennen. Dies erfordert neu eintretende Lernalgorithmen. Die Netto-Verhaltenseignung kann alternativ von anderen Netzen innerhalb des Systems bewertet werden, im Fall von gestapelten Netzen oder anderen Konfigurationen wie Laplace-Hierarchien.

Die Auswahl von Algorithmen hat wenig mit vergleichender Intelligenz zu tun, sobald die mathematischen und Prozessdesigns ausgewählt sind. Das Design von Algorithmen hängt direkter mit der Minimierung des Bedarfs an Rechenressourcen und der Reduzierung des Zeitbedarfs zusammen. Diese Minimierung hängt auch von der Hardware und dem Betriebssystem ab.

Wird ein Ersatz angezeigt?

Sicher. Es wäre besser, wenn Netzwerke eher Säugetierneuronen ähneln würden.

  • Raffinesse der Aktivierung
  • Heterogenität der Verbindungsmuster
  • Plastizität des Designs zur Unterstützung der Metaanpassung
  • Regiert von vielen Dimensionen der regionalen Signalgebung

Mit regionaler Signalübertragung sind die vielen chemischen Signale gemeint, die über die Signalübertragung über Synapsen hinausgehen.

Wir können sogar darüber nachdenken, über die Neurologie von Säugetieren hinauszugehen.

  • Kombination von parametrischem und hypothesenbasiertem Lernen
  • Lernen der Form, die verwendet wird, wenn Mikroben DNA passieren

Neuronale Netzeffizienz

Der Wirkungsgrad kann in keiner universellen Skala quantifiziert werden, da die Temperatur in Grad Kelvin quantifiziert werden kann. Die Effizienz kann nur als Quotient eines gemessenen Wertes über ein theoretisches Ideal quantifiziert werden. Beachten Sie, dass es sich im Nenner um ein Ideal und nicht um ein Maximum handelt. Bei thermodynamischen Motoren ist dieses Ideal die Energieeintragsrate, die niemals vollständig auf die Leistung übertragen werden kann.

Ebenso können neuronale Netze niemals in der Nullzeit lernen. Ein neuronales Netz kann auch in der Produktion über einen beliebig langen Zeitraum keinen Nullfehler erreichen. Daher ist Information in gewisser Weise wie Energie, ein Konzept, das Claude Shannon von Bell Labs zu Beginn der digitalen Automatisierung untersucht hat, und die Beziehung zwischen Informationsentropie und thermodynamischer Entropie ist heute ein wichtiger Bestandteil der theoretischen Physik.

Es kann keine schlechte oder gute Lerneffizienz geben. Es kann weder eine schlechte noch eine gute Leistung geben, wenn wir logisch und wissenschaftlich denken möchten - nur eine relative Verbesserung einer Systemkonfiguration im Vergleich zu einer anderen Systemkonfiguration für einen ganz bestimmten Satz von Leistungsszenarien.

Ohne eine eindeutige Spezifikation der beiden Hardware-, Betriebssystem- und Softwarekonfigurationen und eine vollständig definierte Testsuite, die für die relative Bewertung verwendet wird, ist die Effizienz daher bedeutungslos.


1

Wir haben Hoffnung, dass in dieser Front lauert. Ab sofort haben wir Kapsel Netzwerke von J.Hinton , die eine andere nichtlineare Aktivierung der ‚Squash‘ Funktion aufgerufen verwendet.

  1. Hinton nennt Max-Pooling in CNN einen "großen Fehler", da CNN nur nach Präsenzobjekten in einem Bild sucht und nicht nach der relativen Ausrichtung zwischen ihnen. Sie verlieren also die räumlichen Informationen, während sie versuchen, eine Übersetzungsinvarianz zu erreichen.
  2. Neuronale Netze haben feste Verbindungen, während eine Kapsel in einem Kapselnetzwerk in jeder Epoche „entscheidet“, an welche andere Kapsel sie ihre Aktivierung weitergeben muss. Dies wird als "Routing" bezeichnet.
  3. Die Aktivierung jedes Neurons in neuronalen Netzen ist ein Skalar. Während die Aktivierung der Kapsel ein Vektor ist, der die Pose und Ausrichtung eines Objekts in einem Bild erfasst.
  4. CNN gelten als schlechte Darstellungen des menschlichen visuellen Systems. Mit menschlichem visuellen System meine ich Augen und Gehirn / Kognition zusammen. Wir konnten die Freiheitsstatue aus jeder Pose identifizieren, selbst wenn wir sie aus einer Pose betrachtet haben. CNN kann in den meisten Fällen nicht dasselbe Objekt in unterschiedlichen Posen und Ausrichtungen erkennen.

Kapselnetzwerke selbst weisen einige Mängel auf. Es wurde also daran gearbeitet, über neuronale Netze hinauszuschauen. Sie können diesen Blog zum besseren Verständnis lesen, bevor Sie den Artikel von J.Hinton lesen.


0

Neuronale Netze erfordern viele Daten und Schulungen. Für die meisten Datasets im Tabellenformat ist es viel besser, entscheidungsbaumbasierte Modelle zu verwenden. Meistens reichen einfache Modelle aus, um eine gute Genauigkeit zu erzielen. Neuronale Netze hatten jedoch ihren Zeittest. Es ist erst fünf bis sechs Jahre her, dass die Revolution des tiefen Lernens begann, daher kennen wir die wahre Kraft des tiefen Lernens immer noch nicht.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.