Warum funktioniert Deep Learning mit kleinen Datenmengen nicht gut?

Ich bin neu im tiefen Lernen, daher könnte dies eine triviale Frage sein. Aber ich frage mich, warum Deep Learning (oder neuronales Netzwerk) bei kleinen beschrifteten Daten nicht sehr gut funktioniert. Unabhängig davon, welche Forschungsarbeiten ich gelesen habe, sind ihre Datensätze riesig. Intuitiv ist das nicht überraschend, da unser Gehirn viel Zeit braucht, um sich selbst zu trainieren. Aber gibt es einen mathematischen Beweis oder Grund, warum das neuronale Netzwerk in solchen Fällen nicht gut funktioniert?

neural-networks deep-learning

— Bluechill
quelle

Die in typischen Deep-Learning-Modellen verwendeten neuronalen Netze haben eine sehr große Anzahl von Knoten mit vielen Schichten und daher viele Parameter, die geschätzt werden müssen. Dies erfordert viele Daten. Ein kleines neuronales Netzwerk (mit weniger Schichten und weniger freien Parametern) kann mit einem kleinen Datensatz erfolgreich trainiert werden - dies wird jedoch normalerweise nicht als "Deep Learning" bezeichnet.

— dcorney
quelle

+1. Die Komplexität des Modells sollte immer nur langsam mit der Stichprobengröße zunehmen, und Deep Learning ist ein ziemlich komplexes Modell, was bedeutet, dass es bei kleinen Stichprobengrößen normalerweise nicht gut funktioniert. Die Elemente des statistischen Lernens ( kostenlos zum Download verfügbar ) diskutieren dies - sehr zu empfehlen.

— Stephan Kolassa

Vielen Dank. Bedeutet das, dass ich das Modell überanpassen werde, wenn ich immer noch versuche, ein Modell mit kleinen Daten zu lernen?

— Bluechill

Es ist wahrscheinlicher, dass Sie überanpassen, wenn Sie eine kleine Datenmenge im Verhältnis zur Anzahl der Parameter in Ihrem Modell haben - dies gilt für jedes Modell. Sie können Ihrem Modell Regularisierer hinzufügen (z. B. große Gewichte bestrafen, Eingabedaten rauschen, versteckte Einheiten löschen usw.), um dies zu vermeiden. Im Moment ist dies jedoch eher eine Kunst als eine Wissenschaft.

— lmjohns3