Warum benötigen neuronale Netze so viele Trainingsbeispiele?


64

Ein menschliches Kind im Alter von 2 Jahren benötigt ungefähr 5 Instanzen eines Autos, um es mit angemessener Genauigkeit zu identifizieren, unabhängig von Farbe, Fabrikat usw. Als mein Sohn 2 Jahre alt war, konnte er Straßenbahnen und Züge identifizieren, obwohl er sie gesehen hatte nur ein paar. Da er normalerweise miteinander verwechselte, war sein neuronales Netzwerk anscheinend nicht genug trainiert, aber immer noch.

Was fehlt an künstlichen neuronalen Netzen, das sie daran hindert, viel schneller zu lernen? Ist Transferlernen eine Antwort?


23
Elefanten könnten ein besseres Beispiel sein als Autos. Wie andere angemerkt haben, hat ein Kind möglicherweise viele Autos gesehen, bevor es das Etikett hörte. Wenn sein Verstand also bereits "natürliche Arten" definiert, hat es jetzt ein Etikett für eine. Ein westliches Kind entwickelt jedoch unbestreitbar ein gutes System zur Klassifizierung von Elefanten auf der Grundlage weniger Daten.
JG

70
Was lässt Sie denken, dass das Gehirn eines menschlichen Kindes wie ein neuronales Netzwerk funktioniert?
Paul Wasilewski

16
Einem NN kann ein Bild eines Autos gezeigt werden. Ihr Kind erhält einen vollständigen 3D-Film aus verschiedenen Perspektiven für verschiedene Fahrzeugtypen. Ihr Kind hat wahrscheinlich auch ähnliche Beispiele, um ein Auto von anderen zu unterscheiden. Zum Beispiel Kinderwagen, Spielzeug usw. Ohne diese hätte Ihr Kind wohl mehr Beispiele gebraucht.
Stian Yttervik

20
@MSalters Im Sinne eines künstlichen neuronalen Netzwerks? Wahrscheinlich nicht.
Firebug

28
"Ein menschliches Kind im Alter von 2 Jahren benötigt ungefähr 5 Instanzen eines Autos, um es mit angemessener Genauigkeit identifizieren zu können." Ein solches Kind hat zwei volle Jahre Erfahrung mit Dingen, die keine Autos sind. Ich bin mir sicher, dass dies eine wichtige Rolle spielt.
DarthFennec

Antworten:


101

Ich warne davor, starke Ähnlichkeiten zwischen biologischen und künstlichen neuronalen Netzen zu erwarten. Ich denke, der Name "Neuronale Netze" ist ein bisschen gefährlich, weil er die Leute dazu verleitet, zu erwarten, dass neurologische Prozesse und maschinelles Lernen gleich sein sollten. Die Unterschiede zwischen biologischen und künstlichen neuronalen Netzen überwiegen die Ähnlichkeiten.

Als Beispiel dafür, wie dies schief gehen kann, können Sie auch die Argumentation im ursprünglichen Beitrag auf den Kopf stellen. Sie können ein neuronales Netzwerk trainieren, um zu lernen, Autos an einem Nachmittag zu erkennen, vorausgesetzt, Sie haben einen relativ schnellen Computer und einige Trainingsdaten. Sie können dies zu einer Binäraufgabe (Auto / nicht Auto) oder zu einer Mehrklassenaufgabe (Auto / Straßenbahn / Fahrrad / Flugzeug / Boot) machen und sich dennoch auf ein hohes Maß an Erfolg verlassen.

Im Gegensatz dazu würde ich nicht erwarten, dass ein Kind am Tag oder sogar in der Woche nach seiner Geburt ein Auto aussuchen kann, auch wenn es "so viele Trainingsbeispiele" gesehen hat. Offensichtlich unterscheidet sich etwas zwischen einem Zweijährigen und einem Säugling, was den Unterschied in der Lernfähigkeit erklärt, wohingegen ein neuronales Netzwerk für die Vanillebildklassifikation in der Lage ist, die Objektklassifikation unmittelbar nach der "Geburt" aufzunehmen. Ich denke, dass es zwei wichtige Unterschiede gibt: (1) das relative Volumen der verfügbaren Trainingsdaten und (2) einen Selbstlernmechanismus, der sich im Laufe der Zeit aufgrund der zahlreichen Trainingsdaten entwickelt.


Der ursprüngliche Beitrag enthält zwei Fragen. Titel und Hauptteil der Frage stellen die Frage, warum neuronale Netze "so viele Beispiele" benötigen. Im Vergleich zur Erfahrung eines Kindes haben neuronale Netze, die unter Verwendung gemeinsamer Bild-Benchmarks trainiert wurden, vergleichsweise wenig Daten.

Ich werde die Frage im Titel umformulieren

"Wie vergleicht und kontrastiert das Trainieren eines neuronalen Netzwerks für einen gemeinsamen Image-Benchmark die Lernerfahrung eines Kindes?"

Zum Vergleich werde ich die CIFAR-10-Daten heranziehen, da es sich um einen gängigen Image-Benchmark handelt. Der beschriftete Teil besteht aus 10 Bildklassen mit 6000 Bildern pro Klasse. Jedes Bild ist 32x32 Pixel groß. Wenn Sie die beschrifteten Bilder von CIFAR-10 auf irgendeine Weise gestapelt und ein Standardvideo mit 48 fps erstellt hätten, hätten Sie ungefähr 20 Minuten Filmmaterial.

Ein Kind im Alter von 2 Jahren, das die Welt täglich 12 Stunden lang beobachtet, hat ungefähr 263000 Minuten (mehr als 4000 Stunden) direkte Beobachtungen der Welt, einschließlich der Rückmeldungen von Erwachsenen (Etiketten). (Dies sind nur Zahlen aus dem Baseballstadion - ich weiß nicht, wie viele Minuten ein typischer Zweijähriger damit verbracht hat, die Welt zu beobachten.) Außerdem wird das Kind vielen, vielen Objekten ausgesetzt sein, die über die 10 Klassen hinausgehen, aus denen CIFAR besteht. 10.

Es spielen also ein paar Dinge eine Rolle. Zum einen ist das Kind insgesamt mehr Daten ausgesetzt und verfügt über eine vielfältigere Datenquelle als das CIFAR-10-Modell. Datenvielfalt und Datenvolumen sind allgemein als Voraussetzungen für robuste Modelle anerkannt. In diesem Licht scheint es nicht verwunderlich, dass ein neuronales Netzwerk bei dieser Aufgabe schlechter ist als das Kind, da ein auf CIFAR-10 trainiertes neuronales Netzwerk im Vergleich zum Zweijährigen einen positiven Mangel an Trainingsdaten aufweist. Die Bildauflösung, die einem Kind zur Verfügung steht, ist besser als die 32x32-CIFAR-10-Bilder, sodass das Kind Informationen über die feinen Details von Objekten erhalten kann.

Der Vergleich zwischen CIFAR-10 und zwei Jahren ist nicht perfekt, da das CIFAR-10-Modell wahrscheinlich mit mehreren Durchläufen über dieselben statischen Bilder trainiert wird, während das Kind mit Hilfe der binokularen Sicht sieht, wie Objekte in drei angeordnet sind Welt bei Bewegung und mit unterschiedlichen Lichtverhältnissen und Perspektiven auf die gleichen Objekte.

Die Anekdote über OPs Kind impliziert eine zweite Frage:

"Wie können neuronale Netze autodidaktisch werden?"

Ein Kind verfügt über ein gewisses Talent zum Autodidakt, sodass im Laufe der Zeit neue Kategorien von Objekten hinzugefügt werden können, ohne von vorne beginnen zu müssen.

  • Die Bemerkung von OP zum nennt eine Art von Modellanpassung im Kontext des maschinellen Lernens.

  • In Kommentaren haben andere Benutzer darauf hingewiesen, dass One- und Little-Shot-Learning * ein weiteres Forschungsgebiet des maschinellen Lernens ist.

  • Darüber hinaus befasst sich das mit Autodidaktmodellen aus einer anderen Perspektive, sodass Roboter im Wesentlichen experimentieren können, um optimale Strategien zur Lösung spezifischer Probleme (z. B. Schach spielen) zu finden.

Es ist wahrscheinlich richtig, dass alle drei dieser Paradigmen des maschinellen Lernens wesentlich dazu beitragen, die Anpassung von Maschinen an neue Bildverarbeitungsaufgaben zu verbessern. Die schnelle Anpassung von Modellen des maschinellen Lernens an neue Aufgaben ist ein aktives Forschungsgebiet. Da die praktischen Ziele dieser Projekte (neue Malware-Instanzen identifizieren, Betrüger in Passfotos erkennen, das Internet indizieren) und die Erfolgskriterien sich von den Zielen eines Kindes unterscheiden, das etwas über die Welt lernt, und von der Tatsache, dass dies in der Vergangenheit getan wurde Ein Computer, der Mathematik verwendet, und der andere, der Chemie verwendet, besteht aus organischem Material. Ein direkter Vergleich zwischen beiden wird schwierig bleiben.


Abgesehen davon wäre es interessant zu untersuchen, wie das CIFAR-10-Problem umgedreht und ein neuronales Netzwerk trainiert werden kann, um 6000 Objekte aus jeweils 10 Beispielen zu erkennen. Aber selbst dies wäre kein fairer Vergleich zum 2-Jährigen, da es immer noch große Diskrepanzen in Bezug auf Gesamtvolumen, Vielfalt und Auflösung der Trainingsdaten geben würde.

* Derzeit gibt es keine Tags für One-Shot-Learning oder Little-Shot-Learning.


34
Um es ein bisschen genauer zu machen, hat ein menschliches Kind bereits jahrelang mit Zehntausenden von Beispielen trainiert, damit es bestimmen kann, wie Objekte aus verschiedenen Blickwinkeln betrachtet werden, wie ihre Grenzen zu erkennen sind und in welchem ​​Verhältnis die scheinbare Größe zur tatsächlichen Größe steht , und so weiter.
David Schwartz

25
Das Gehirn eines Kindes ist im Mutterleib aktiv . Das Baby kann seine Eltern durch Geräusche identifizieren , nachdem die Geräusche durch Wasser gefiltert wurden . Ein neugeborenes Baby hatte Monate mit Daten zu arbeiten, bevor es geboren wurde, aber es braucht noch Jahre, bevor es ein Wort bilden kann, dann noch ein paar Jahre, bevor es einen Satz bilden kann, und dann noch ein paar Jahre, um einen grammatikalisch korrekten Satz zu erhalten , etc ... lernen ist sehr kompliziert .
Nelson

5
@EelcoHoogendoorn es erklärt den Kontrast "Kind" gegen "neuronales Netzwerk", das in der Frage verwendet wurde. Die Antwort ist, dass dies nur ein scheinbarer Kontrast ist. Neuronale Netze brauchen gar nicht so viele Beispiele, denn Kinder bekommen auch viele Beispiele (aber nur auf andere Weise), bevor sie Autos erkennen können.
Sextus Empiricus

4
@ Nelson, ich bin nicht sicher, was der Grund für Ihren Kommentar ist, aber Sie können "Jahre" in "Jahr" ändern. Mit 1 Jahr sprechen Kinder Wörter, mit 2 Jahren werden die ersten Sätze gesprochen, und mit 3 Jahren wird die Grammatik, wie Vergangenheitsform und Pronomen, korrekt verwendet.
Sextus Empiricus

1
@EelcoHoogendoorn Ich denke, die Prämisse der Frage ist ein Argumentationsfall aus einer fehlerhaften Analogie, also ist die Analogie direkt ansprechbar. Kontrastierende biologische und künstliche neuronale Netze sprechen ebenfalls an, da die Antwort umreißen würde, wie biologische und künstliche neuronale Netze in ihrem Namen am ähnlichsten sind (beide enthalten den Ausdruck "neuronale Netze"), aber in ihren wesentlichen Merkmalen oder zumindest den Merkmalen nicht ähnlich sind von der Frage angenommen.
Setzen Sie Monica

49

Zunächst einmal weiß ein Kind im Alter von zwei Jahren viel über die Welt und wendet dieses Wissen aktiv an. Ein Kind macht viel "Transferlernen", indem es dieses Wissen auf neue Konzepte anwendet.

Zweitens sieht ein Kind, bevor es diese fünf "etikettierten" Beispiele von Autos sieht, viele Autos auf der Straße, im Fernsehen, in Spielzeugautos usw., so dass auch viel "unbeaufsichtigtes Lernen" im Voraus stattfindet.

Schließlich haben neuronale Netze fast nichts mit dem menschlichen Gehirn gemeinsam, so dass es nicht sinnvoll ist, sie zu vergleichen. Beachten Sie auch, dass es Algorithmen für das einmalige Lernen gibt, und dass derzeit ziemlich viel Forschung darüber stattfindet.


9
4. Punkt, ein Kind hat auch mehr als 100 Millionen Jahre evolutionäre Selektion, um effizient / genau zu lernen.
Csiz

39

Ein wichtiger Aspekt, den ich in den aktuellen Antworten nicht sehe, ist die Evolution .

Das Gehirn eines Kindes lernt nicht von Grund auf. Es ist vergleichbar mit der Frage, wie Hirsche und Giraffenbabys ein paar Minuten nach der Geburt laufen können. Weil sie mit einem Gehirn geboren werden, das für diese Aufgabe bereits verkabelt ist. Natürlich ist eine Feinabstimmung erforderlich, aber das Rehbaby lernt nicht, durch "zufällige Initialisierung" zu laufen.

Ebenso ist die Tatsache, dass große bewegliche Objekte existieren und wichtig sind, um den Überblick zu behalten, etwas, mit dem wir geboren wurden.

Daher halte ich die Voraussetzung dieser Frage einfach für falsch. Menschliche neuronale Netze hatten die Möglichkeit, Tonnen von - vielleicht nicht Autos, sondern - sich bewegenden, rotierenden 3D-Objekten mit schwierigen Texturen und Formen usw. zu sehen. Dies geschah jedoch über viele Generationen und das Lernen erfolgte durch evolutionäre Algorithmen, dh solche, deren Gehirn war für diese Aufgabe besser strukturiert, konnte sich mit höherer Wahrscheinlichkeit vermehren und ließ die nächste Generation von Anfang an mit immer besserer Gehirnverdrahtung zurück.


8
Spaß beiseite: Es gibt Hinweise darauf, dass wir bei der Unterscheidung zwischen verschiedenen Automodellen das spezialisierte Gesichtserkennungszentrum unseres Gehirns nutzen . Es ist plausibel, dass, obwohl ein Kind möglicherweise nicht zwischen verschiedenen Modellen unterscheidet, das implizite Vorhandensein eines "Gesichts" auf einem mobilen Objekt dazu führen kann, dass Autos als eine Art von Kreatur eingestuft werden und daher bevorzugt von der Evolution identifiziert werden, seitdem es das Handy erkennt Objekte mit Gesichtern sind überlebenswichtig.
Dan Bryant

7
Diese Antwort spricht genau das an, was ich dachte. Kinder werden nicht als leere Schiefer geboren . Sie sind mit Funktionen ausgestattet, die das Erkennen einiger Muster, das Erlernen einiger Dinge usw. erleichtern.
Eff

1
Tiere, die direkt aus dem Mutterleib laufen, sind in der Tat faszinierend. Eine solche evolutionäre Verkabelung wird jedoch als genau entgegengesetztes Extrem des menschlichen Lernens angesehen, das als Extrem des erfahrungsbasierten Lernens in der natürlichen Welt gilt. Sicherlich werden Autos nur minimale evolutionäre Auswirkungen auf die Entwicklung unseres Gehirns haben.
Eelco Hoogendoorn

5
@EelcoHoogendoorn Die Fähigkeit , die Umgebung zu lernen und zu verstehen, wurde evolutionär ausgewählt. Das Gehirn wurde von der Evolution so eingerichtet, dass es extrem effizient lernt. Die Fähigkeit, die Punkte zu verbinden, Muster zu sehen, Formen und Bewegungen zu verstehen, Rückschlüsse zu ziehen usw.
Eff

3
Dies ist ein guter Punkt, aber es ist auch wahr, dass Forscher, wenn sie dies verstehen, NNs bauen, die fest codierte Strukturen haben, die bestimmte Arten des Lernens erleichtern. Bedenken Sie, dass ein Faltungs-NN fest codierte Empfangsfelder hat , die das Lernen erheblich beschleunigen / die Leistung bei visuellen Aufgaben verbessern. Diese Felder könnten in einem vollständig verbundenen Netzwerk von Grund auf gelernt werden, aber es ist viel schwieriger. @EelcoHoogendoorn, das menschliche Gehirn ist voll von Strukturen, die das Lernen erleichtern.
gung - Wiedereinsetzung von Monica

21

Ich weiß nicht viel über neuronale Netze, aber ich weiß einiges über Babys.

Viele 2-Jährige haben viele Probleme damit, wie allgemeine Wörter sein sollten. Beispielsweise ist es in diesem Alter durchaus üblich, dass Kinder "Hund" für ein beliebiges vierbeiniges Tier verwenden. Das ist eine schwierigere Unterscheidung als "Auto" - man denke nur daran, wie unterschiedlich ein Pudel zum Beispiel von einer Dogge aussieht und dennoch beide "Hund" sind, während eine Katze es nicht ist.

Und ein Kind im Alter von 2 Jahren hat viel, viel mehr als 5 Beispiele für "Auto" gesehen. Ein Kind sieht Dutzende oder sogar Hunderte von Beispielen von Autos, wenn die Familie eine Autofahrt unternimmt. Und viele Eltern werden mehr als fünf Mal einen Kommentar zum Thema "Schau dir das Auto an" abgeben. Kinder können aber auch so denken, wie man es ihnen nicht erzählt hat. Zum Beispiel sieht das Kind auf der Straße viele Dinge in einer Reihe. Sein Vater sagt (von einem) "Schau dir das glänzende Auto an!" und der Junge denkt: "Vielleicht sind all diese anderen Dinge auch Autos?"


3
Andere Beispiele: Taxis, Autos für Fahrstunden und Polizeiautos sind die gleichen. Immer wenn ein Auto rot ist, ist es ein Feuerwehrauto. Wohnmobile sind Krankenwagen. Ein LKW mit Ladekran wird als Bagger eingestuft. Der Bus, der gerade vorbeigefahren ist, fährt zum Bahnhof, daher muss der nächste Bus, der gleich aussieht, auch zum Bahnhof fahren. Und den Mond am helllichten Tag zu sehen, ist ein ganz besonderes Ereignis.
Sextus Empiricus

10

Dies ist eine faszinierende Frage, über die ich auch viel nachgedacht habe und auf die ich einige Erklärungen geben kann, warum.

  • Neuronale Netze funktionieren nicht wie das Gehirn. Backpropagation ist nur in neuronalen Netzen zu finden und tritt nicht im Gehirn auf. In diesem Sinne kennen wir den allgemeinen Lernalgorithmus in unserem Gehirn einfach nicht. Es könnte elektrisch sein, es könnte chemisch sein, es könnte sogar eine Kombination aus beiden sein. Neuronale Netze können aufgrund ihrer Vereinfachung als schlechtere Lernform im Vergleich zu unserem Gehirn angesehen werden.
  • Wenn neuronale Netze tatsächlich wie unser Gehirn sind, werden menschliche Babys in ihren frühen Tagen einem umfassenden "Training" der frühen Schichten unterzogen, wie z. B. der Merkmalsextraktion. Ihre neuronalen Netze sind also nicht wirklich von Grund auf trainiert, sondern die letzte Ebene wird neu trainiert, um immer mehr Klassen und Bezeichnungen hinzuzufügen.

9

Ein menschliches Kind im Alter von 2 Jahren benötigt ungefähr 5 Instanzen eines Autos, um es mit angemessener Genauigkeit zu identifizieren, unabhängig von Farbe, Marke usw.

Das Konzept der "Instanzen" wird leicht matschig. Während ein Kind vielleicht 5 einzigartige Exemplare eines Autos gesehen hat, hat es tatsächlich Tausende von Bildern in vielen verschiedenen Umgebungen gesehen. Sie haben wahrscheinlich Autos in anderen Zusammenhängen gesehen. Sie haben auch eine Intuition für die physische Welt, die sich im Laufe ihres Lebens entwickelt hat - wahrscheinlich geschieht hier etwas Transferlernen. Aber wir packen das alles in "5 Instanzen".

In der Zwischenzeit wird jedes einzelne Bild, das Sie an eine CNN übergeben, als "Beispiel" betrachtet. Wenn Sie eine konsistente Definition anwenden, verwenden beide Systeme tatsächlich eine viel ähnlichere Menge an Trainingsdaten.

Außerdem möchte ich darauf hinweisen, dass Faltungs-Neuronale Netze (CNNs) in der Bildverarbeitung nützlicher sind als ANNs und sich in der Tat der menschlichen Leistung bei Aufgaben wie der Bildklassifizierung nähern. Deep Learning ist (wahrscheinlich) kein Allheilmittel, aber es funktioniert auf diesem Gebiet bewundernswert.


5

Wie von anderen hervorgehoben, variiert die Dateneffizienz künstlicher neuronaler Netze in Abhängigkeit von den Details erheblich. Tatsächlich gibt es viele sogenannte One-Shot-Lernmethoden, mit denen die Aufgabe, Straßenbahnen mit nur einer einzigen beschrifteten Probe mit einer recht guten Genauigkeit zu beschriften, gelöst werden kann.

Ein Weg, dies zu tun, ist das sogenannte Transferlernen; Ein Netzwerk, das auf anderen Etiketten trainiert wurde, ist normalerweise sehr effektiv an neue Etiketten anpassbar, da die harte Arbeit darin besteht, die Komponenten auf niedriger Ebene des Bildes auf vernünftige Weise zu zerlegen.

Wir benötigen jedoch keine so gekennzeichneten Daten, um diese Aufgabe auszuführen. Ähnlich wie Babys brauchen sie nicht annähernd so viele beschriftete Daten wie die neuronalen Netze, an die Sie denken.

Eine solche unbeaufsichtigte Methode, die ich auch in anderen Kontexten erfolgreich angewendet habe, besteht darin, einen unbeschrifteten Satz von Bildern aufzunehmen, diese zufällig zu drehen und ein Netzwerk zu trainieren, um vorherzusagen, welche Seite des Bildes „oben“ ist. Ohne zu wissen, was die sichtbaren Objekte sind oder wie sie genannt werden, zwingt dies das Netzwerk, eine enorme Menge an Struktur über die Bilder zu lernen. und dies kann eine ausgezeichnete Basis für ein viel dateneffizienteres anschließendes Lernen mit Etiketten bilden.

Zwar unterscheiden sich künstliche Netzwerke in wahrscheinlich sinnvoller Weise von realen Netzwerken, z. B. durch das Fehlen eines offensichtlichen Analogons der Rückübertragung. Es ist jedoch sehr wahrscheinlich, dass reale neuronale Netzwerke dieselben Tricks anwenden und versuchen, das zu lernen Struktur in den Daten durch einige einfache Prioritäten impliziert.

Ein weiteres Beispiel, das mit ziemlicher Sicherheit eine Rolle bei Tieren spielt und auch für das Verständnis von Videos vielversprechend ist, ist die Annahme, dass die Zukunft aus der Vergangenheit vorhersehbar sein sollte. Wenn Sie von dieser Annahme ausgehen, können Sie einem neuronalen Netzwerk eine ganze Menge beibringen. Oder auf einer philosophischen Ebene neige ich dazu zu glauben, dass diese Annahme fast allem zugrunde liegt, was wir als "Wissen" betrachten.

Ich sage hier nichts Neues; Es ist jedoch relativ neu in dem Sinne, dass diese Möglichkeiten zu jung sind, um noch viele Anwendungen zu finden, und noch nicht auf das Lehrbuchverständnis zurückgeführt wurden, was ein ANN tun kann. Also, um die OPs Frage zu beantworten; ANNs haben bereits einen Großteil der von Ihnen beschriebenen Lücke geschlossen.


4

Eine Möglichkeit, ein tiefes neuronales Netzwerk zu trainieren, besteht darin, es als Stapel von Auto-Encodern ( Restricted Boltzmann Machines ) zu behandeln.

Theoretisch lernt ein Auto-Encoder unbeaufsichtigt: Er nimmt beliebige, unbeschriftete Eingabedaten auf und verarbeitet sie, um Ausgabedaten zu generieren. Dann nimmt es diese Ausgabedaten und versucht, ihre Eingabedaten neu zu generieren. Es ändert die Parameter seiner Knoten, bis es die Daten fast vollständig auslöst. Wenn Sie darüber nachdenken, schreibt der Auto-Encoder seine eigenen automatisierten Komponententests. Tatsächlich wandelt es seine "unbeschrifteten Eingabedaten" in beschriftete Daten um: Die Originaldaten dienen als Beschriftung für die rundgesteuerten Daten.

Nachdem die Schichten von Autocodierern trainiert wurden, wird das neuronale Netzwerk unter Verwendung von beschrifteten Daten feinabgestimmt, um seine beabsichtigte Funktion auszuführen. In der Tat sind dies Funktionstests.

Das Originalplakat fragt, warum viele Daten zum Trainieren eines künstlichen neuronalen Netzwerks benötigt werden, und vergleicht dies mit der angeblich geringen Menge an Trainingsdaten, die ein zweijähriger Mensch benötigt. Das Originalplakat vergleicht Äpfel mit Orangen: Der gesamte Trainingsprozess für das künstliche neuronale Netz im Vergleich zur Feinabstimmung mit Etiketten für den Zweijährigen.

In Wirklichkeit trainiert der Zweijährige seine Auto-Encoder seit mehr als zwei Jahren mit zufälligen, selbstbeschrifteten Daten. Babys träumen, wenn sie in der Gebärmutter sind . (Kätzchen auch.) Forscher haben diese Träume als zufällige Neuronenschüsse in den visuellen Verarbeitungszentren beschrieben.


1
Einverstanden; mit der Ausnahme, dass Auto-Encoder in der Praxis keine sehr leistungsstarken Werkzeuge für unbeaufsichtigtes Lernen sind; Alles, was wir wissen, deutet darauf hin, dass mehr los ist. Daher sollte die Formulierung „Der Zweijährige hat seine Auto-Encoder trainiert“ nicht zu wörtlich genommen werden.
Eelco Hoogendoorn

4

Wir lernen nicht, "Autos zu sehen", bis wir sehen lernen

Es dauert ziemlich lange und es gibt viele Beispiele für ein Kind, um zu lernen, wie man Objekte als solche sieht. Danach kann ein Kind anhand weniger Beispiele lernen, einen bestimmten Objekttyp zu identifizieren . Wenn Sie ein zweijähriges Kind mit einem Lernsystem vergleichen, das buchstäblich von einer leeren Tafel ausgeht, handelt es sich um einen Vergleich zwischen Äpfeln und Orangen. In diesem Alter hat das Kind Tausende von Stunden "Videomaterial" gesehen.

In ähnlicher Weise sind viele Beispiele für künstliche neuronale Netze erforderlich, um zu lernen, wie man sieht. Danach ist es jedoch möglich, dieses Wissen auf neue Beispiele zu übertragen. Transferlernen ist eine ganze Domäne des maschinellen Lernens, und Dinge wie "One-Shot-Lernen" sind möglich - Sie können ANNs erstellen, die lernen, neue Arten von Objekten, die sie zuvor noch nicht gesehen haben, anhand eines einzigen Beispiels zu identifizieren oder eines zu identifizieren bestimmte Person von einem einzigen Foto ihres Gesichts. Für diesen ersten Teil des "Sehenlernens" sind jedoch ziemlich viele Daten erforderlich.

Darüber hinaus gibt es Hinweise darauf, dass nicht alle Trainingsdaten gleich sind, dh, dass Daten, die Sie während des Lernens "auswählen", effektiver sind als Daten, die Ihnen lediglich zur Verfügung gestellt werden. ZB Held & Hein Zwillingskätzchen-Experiment. https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf


4

Eine Sache, die ich in den Antworten bisher nicht gesehen habe, ist die Tatsache, dass eine "Instanz" eines realen Objekts, die von einem menschlichen Kind gesehen wird, keiner Instanz im Kontext des NN-Trainings entspricht.

Angenommen, Sie stehen mit einem 5-jährigen Kind an einem Bahnübergang und beobachten, wie 5 Züge innerhalb von 10 Minuten vorbeifahren. Jetzt könnte man sagen "Mein Kind hat nur 5 Züge gesehen und kann andere Züge zuverlässig identifizieren, während ein NN Tausende von Bildern benötigt!". Obwohl dies wahrscheinlich zutrifft, ignorieren Sie völlig die Tatsache, dass jeder Zug, den Ihr Kind sieht, VIEL mehr Informationen enthält als ein einzelnes Bild eines Zuges. Tatsächlich verarbeitet das Gehirn Ihres Kindes mehrere Dutzend Bilder des vorbeifahrenden Zuges pro Sekunde, jedes aus einem etwas anderen Winkel, verschiedenen Schatten usw., während ein einziges Bild dem NN nur sehr begrenzte Informationen liefert. In diesem Zusammenhang verfügt Ihr Kind sogar über Informationen, die dem NN nicht zur Verfügung stehen, z. B. die Geschwindigkeit des Zuges oder das Geräusch, das der Zug macht.

Außerdem kann Ihr Kind sprechen und FRAGEN STELLEN! "Züge sind sehr lang, oder?" "Ja.", "Und sie sind auch sehr groß, oder?" "Ja.". Mit zwei einfachen Fragen lernt Ihr Kind in weniger als einer Minute zwei sehr wichtige Funktionen!

Ein weiterer wichtiger Punkt ist die Objekterkennung. Ihr Kind kann sofort erkennen, auf welches Objekt, dh auf welchen Teil des Bildes es sich konzentrieren muss, während ein NN lernen muss, das relevante Objekt zu erkennen, bevor es versuchen kann, es zu klassifizieren.


3
Ich würde auch hinzufügen, dass das Kind Kontext hat : Es sieht einen Zug auf den Schienen, sei es an einem Bahnhof, Bahnübergang usw. Wenn es einen riesigen (zeppelingroßen) Ballon sieht, der so geformt und bemalt ist, dass er wie ein Zug am Himmel aussieht, es wird nicht sagen, dass es ein Zug ist. Es wird sagen, dass es wie ein Zug aussieht, aber es wird kein Etikett "Zug" daran anbringen. Ich bin skeptisch, dass ein NN in diesem Fall ein Etikett "Zug-aussehender Ballon" zurückgibt. Ebenso wird ein Kind eine Werbetafel, auf der sich ein Zug befindet, nicht mit einem tatsächlichen Zug verwechseln. Ein Bild eines Zugbildes ist ein Bild eines Zuges zu einem NN - es wird die Bezeichnung "Zug" zurückgeben.
Corey979

3

Ich würde behaupten, dass die Leistung nicht so unterschiedlich ist, wie Sie es vielleicht erwarten, aber Sie stellen eine großartige Frage (siehe den letzten Absatz).

Wie Sie Transferlernen erwähnen: Um Äpfel mit Äpfeln zu vergleichen, müssen wir schauen, wie viele Bilder insgesamt und wie viele Bilder der interessierenden Klasse ein menschliches / neuronales Netz "sieht".

1. Wie viele Bilder sieht ein Mensch an?

Die Augenbewegung des Menschen dauert etwa 200 ms, was als eine Art "biologisches Foto" angesehen werden könnte. Sehen Sie sich den Vortrag des Computer Vision Experten Fei-Fei Li an: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-362785 .

Sie fügt hinzu:

Mit 3 Jahren hätte ein Kind Hunderte Millionen Bilder gesehen.

In ImageNet, der führenden Datenbank zur Objekterkennung, gibt es ~ 14 Millionen beschriftete Bilder. Ein auf ImageNet trainiertes neuronales Netzwerk hätte also so viele Bilder gesehen wie ein 14000000/5/60/60/24 * 2 ~ 64 Tage altes Baby, also zwei Monate alt (vorausgesetzt, das Baby ist die Hälfte seines Lebens wach). Um fair zu sein, ist es schwer zu sagen, wie viele dieser Bilder beschriftet sind. Darüber hinaus sind die Bilder, die ein Baby sieht, nicht so vielfältig wie in ImageNet. (Wahrscheinlich sieht das Baby ihre Mutter über die Zeit verfügen, ...;). Ich denke jedoch, es ist fair zu sagen, dass Ihr Sohn Hunderte von Millionen von Bildern gesehen hat (und dann Transfer Learning anwendet).

Wie viele Bilder brauchen wir, um eine neue Kategorie zu lernen, wenn wir eine solide Basis verwandter Bilder haben, aus denen wir (Transfer) lernen können?

Der erste Blog-Beitrag, den ich gefunden habe, war folgender: https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html . Sie verwenden 1000 Beispiele pro Klasse. Ich könnte mir vorstellen, dass 2,5 Jahre später noch viel weniger erforderlich ist. Ein Mensch kann jedoch 1000 Bilder in 1000/5/60 in 3,3 Minuten sehen.

Sie schrieben:

Ein menschliches Kind im Alter von 2 Jahren benötigt ungefähr 5 Instanzen eines Autos, um es mit angemessener Genauigkeit zu identifizieren, unabhängig von Farbe, Marke usw.

Dies entspricht 40 Sekunden pro Instanz (mit verschiedenen Winkeln des Objekts, um es vergleichbar zu machen).

Fazit: Wie gesagt, ich musste ein paar Annahmen treffen. Aber ich denke, man kann sehen, dass die Leistung nicht so unterschiedlich ist, wie man es erwarten könnte.

Ich glaube jedoch, dass Sie eine großartige Frage stellen und hier ist, warum:

2. Würden neuronale Netze eine bessere / andere Leistung erbringen, wenn sie eher wie Gehirne funktionieren würden? (Geoffrey Hinton sagt ja).

In einem Interview mit https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/ vergleicht er Ende 2018 die aktuellen Implementierungen neuronaler Netzwerke mit dem Gehirn. Er erwähnt, dass die künstlichen neuronalen Netze gewichtsmäßig um den Faktor 10.000 kleiner sind als das Gehirn. Daher braucht das Gehirn viel weniger Iterationen von Trainings, um zu lernen. Damit künstliche neuronale Netze mehr wie unser Gehirn funktionieren können, folgt er einem anderen Hardwaretrend, einem in Großbritannien ansässigen Startup namens Graphcore. Es reduziert die Berechnungszeit durch eine intelligente Art der Speicherung der Gewichte eines neuronalen Netzwerks. Daher können mehr Gewichte verwendet werden und die Trainingszeit der künstlichen neuronalen Netze kann reduziert werden.


2

Ich bin ein Experte in diesem Bereich. Ich bin ein Mensch, ich war ein Baby, ich habe ein Auto und ich mache AI.

Der Grund, warum Babys Autos mit viel weniger Beispielen in die Hand nehmen, ist die Intuition. Das menschliche Gehirn hat bereits Strukturen, um mit 3D-Rotationen umzugehen. Es gibt auch zwei Augen, die eine Parallaxe für die Tiefenkartierung liefern, was wirklich hilft. Sie können zwischen einem Auto und einem Bild eines Autos intuitiv unterscheiden, da das Bild keine tatsächliche Tiefe aufweist. Hinton (KI-Forscher) hat die Idee von Capsule Networks vorgeschlagen, mit denen die Dinge intuitiver gehandhabt werden könnten. Unglücklicherweise für Computer sind die Trainingsdaten (normalerweise) 2D-Bilder, Arrays von flachen Pixeln. Um eine Überanpassung zu vermeiden, sind viele Daten erforderlich, damit die Ausrichtung der Autos in den Bildern verallgemeinert wird. Das Babyhirn kann das schon und kann ein Auto in jeder Orientierung erkennen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.