Ich warne davor, starke Ähnlichkeiten zwischen biologischen und künstlichen neuronalen Netzen zu erwarten. Ich denke, der Name "Neuronale Netze" ist ein bisschen gefährlich, weil er die Leute dazu verleitet, zu erwarten, dass neurologische Prozesse und maschinelles Lernen gleich sein sollten. Die Unterschiede zwischen biologischen und künstlichen neuronalen Netzen überwiegen die Ähnlichkeiten.
Als Beispiel dafür, wie dies schief gehen kann, können Sie auch die Argumentation im ursprünglichen Beitrag auf den Kopf stellen. Sie können ein neuronales Netzwerk trainieren, um zu lernen, Autos an einem Nachmittag zu erkennen, vorausgesetzt, Sie haben einen relativ schnellen Computer und einige Trainingsdaten. Sie können dies zu einer Binäraufgabe (Auto / nicht Auto) oder zu einer Mehrklassenaufgabe (Auto / Straßenbahn / Fahrrad / Flugzeug / Boot) machen und sich dennoch auf ein hohes Maß an Erfolg verlassen.
Im Gegensatz dazu würde ich nicht erwarten, dass ein Kind am Tag oder sogar in der Woche nach seiner Geburt ein Auto aussuchen kann, auch wenn es "so viele Trainingsbeispiele" gesehen hat. Offensichtlich unterscheidet sich etwas zwischen einem Zweijährigen und einem Säugling, was den Unterschied in der Lernfähigkeit erklärt, wohingegen ein neuronales Netzwerk für die Vanillebildklassifikation in der Lage ist, die Objektklassifikation unmittelbar nach der "Geburt" aufzunehmen. Ich denke, dass es zwei wichtige Unterschiede gibt: (1) das relative Volumen der verfügbaren Trainingsdaten und (2) einen Selbstlernmechanismus, der sich im Laufe der Zeit aufgrund der zahlreichen Trainingsdaten entwickelt.
Der ursprüngliche Beitrag enthält zwei Fragen. Titel und Hauptteil der Frage stellen die Frage, warum neuronale Netze "so viele Beispiele" benötigen. Im Vergleich zur Erfahrung eines Kindes haben neuronale Netze, die unter Verwendung gemeinsamer Bild-Benchmarks trainiert wurden, vergleichsweise wenig Daten.
Ich werde die Frage im Titel umformulieren
"Wie vergleicht und kontrastiert das Trainieren eines neuronalen Netzwerks für einen gemeinsamen Image-Benchmark die Lernerfahrung eines Kindes?"
Zum Vergleich werde ich die CIFAR-10-Daten heranziehen, da es sich um einen gängigen Image-Benchmark handelt. Der beschriftete Teil besteht aus 10 Bildklassen mit 6000 Bildern pro Klasse. Jedes Bild ist 32x32 Pixel groß. Wenn Sie die beschrifteten Bilder von CIFAR-10 auf irgendeine Weise gestapelt und ein Standardvideo mit 48 fps erstellt hätten, hätten Sie ungefähr 20 Minuten Filmmaterial.
Ein Kind im Alter von 2 Jahren, das die Welt täglich 12 Stunden lang beobachtet, hat ungefähr 263000 Minuten (mehr als 4000 Stunden) direkte Beobachtungen der Welt, einschließlich der Rückmeldungen von Erwachsenen (Etiketten). (Dies sind nur Zahlen aus dem Baseballstadion - ich weiß nicht, wie viele Minuten ein typischer Zweijähriger damit verbracht hat, die Welt zu beobachten.) Außerdem wird das Kind vielen, vielen Objekten ausgesetzt sein, die über die 10 Klassen hinausgehen, aus denen CIFAR besteht. 10.
Es spielen also ein paar Dinge eine Rolle. Zum einen ist das Kind insgesamt mehr Daten ausgesetzt und verfügt über eine vielfältigere Datenquelle als das CIFAR-10-Modell. Datenvielfalt und Datenvolumen sind allgemein als Voraussetzungen für robuste Modelle anerkannt. In diesem Licht scheint es nicht verwunderlich, dass ein neuronales Netzwerk bei dieser Aufgabe schlechter ist als das Kind, da ein auf CIFAR-10 trainiertes neuronales Netzwerk im Vergleich zum Zweijährigen einen positiven Mangel an Trainingsdaten aufweist. Die Bildauflösung, die einem Kind zur Verfügung steht, ist besser als die 32x32-CIFAR-10-Bilder, sodass das Kind Informationen über die feinen Details von Objekten erhalten kann.
Der Vergleich zwischen CIFAR-10 und zwei Jahren ist nicht perfekt, da das CIFAR-10-Modell wahrscheinlich mit mehreren Durchläufen über dieselben statischen Bilder trainiert wird, während das Kind mit Hilfe der binokularen Sicht sieht, wie Objekte in drei angeordnet sind Welt bei Bewegung und mit unterschiedlichen Lichtverhältnissen und Perspektiven auf die gleichen Objekte.
Die Anekdote über OPs Kind impliziert eine zweite Frage:
"Wie können neuronale Netze autodidaktisch werden?"
Ein Kind verfügt über ein gewisses Talent zum Autodidakt, sodass im Laufe der Zeit neue Kategorien von Objekten hinzugefügt werden können, ohne von vorne beginnen zu müssen.
Die Bemerkung von OP zum Transferlernen nennt eine Art von Modellanpassung im Kontext des maschinellen Lernens.
In Kommentaren haben andere Benutzer darauf hingewiesen, dass One- und Little-Shot-Learning * ein weiteres Forschungsgebiet des maschinellen Lernens ist.
Darüber hinaus befasst sich das Bestärkungslernen mit Autodidaktmodellen aus einer anderen Perspektive, sodass Roboter im Wesentlichen experimentieren können, um optimale Strategien zur Lösung spezifischer Probleme (z. B. Schach spielen) zu finden.
Es ist wahrscheinlich richtig, dass alle drei dieser Paradigmen des maschinellen Lernens wesentlich dazu beitragen, die Anpassung von Maschinen an neue Bildverarbeitungsaufgaben zu verbessern. Die schnelle Anpassung von Modellen des maschinellen Lernens an neue Aufgaben ist ein aktives Forschungsgebiet. Da die praktischen Ziele dieser Projekte (neue Malware-Instanzen identifizieren, Betrüger in Passfotos erkennen, das Internet indizieren) und die Erfolgskriterien sich von den Zielen eines Kindes unterscheiden, das etwas über die Welt lernt, und von der Tatsache, dass dies in der Vergangenheit getan wurde Ein Computer, der Mathematik verwendet, und der andere, der Chemie verwendet, besteht aus organischem Material. Ein direkter Vergleich zwischen beiden wird schwierig bleiben.
Abgesehen davon wäre es interessant zu untersuchen, wie das CIFAR-10-Problem umgedreht und ein neuronales Netzwerk trainiert werden kann, um 6000 Objekte aus jeweils 10 Beispielen zu erkennen. Aber selbst dies wäre kein fairer Vergleich zum 2-Jährigen, da es immer noch große Diskrepanzen in Bezug auf Gesamtvolumen, Vielfalt und Auflösung der Trainingsdaten geben würde.
* Derzeit gibt es keine Tags für One-Shot-Learning oder Little-Shot-Learning.