Die Vapnik-Chervonenkis (VC) -Dimensionsformel für neuronale Netze reicht von bis , wobei im ungünstigsten Fall die Anzahl der Kanten und ist die Anzahl der Knoten. Die Anzahl der Trainingsmuster, die für eine starke Generalisierungsgarantie erforderlich sind, ist linear zur VC-Dimension.
Dies bedeutet, dass für ein Netzwerk mit Milliarden von Kanten, wie im Fall erfolgreicher Deep-Learning-Modelle, der Trainingsdatensatz im besten Fall Milliarden von Trainingsmustern benötigt, im schlimmsten Fall Billiarden. Die größten Trainingssets haben derzeit etwa hundert Milliarden Proben. Da nicht genügend Trainingsdaten vorliegen, ist es unwahrscheinlich, dass Deep-Learning-Modelle verallgemeinern. Stattdessen passen sie die Trainingsdaten über. Dies bedeutet, dass die Modelle bei Daten, die sich von den Trainingsdaten unterscheiden, keine gute Leistung erbringen, was für das maschinelle Lernen eine unerwünschte Eigenschaft ist.
Warum sind Deep-Learning-Ergebnisse laut VC-Dimensionsanalyse angesichts der Unfähigkeit zu verallgemeinern, so hochgelobt? Nur eine hohe Genauigkeit für einige Datensätze zu haben, bedeutet nicht viel für sich. Gibt es etwas Besonderes an Deep Learning-Architekturen, das die VC-Dimension erheblich reduziert?
Wenn Sie der Meinung sind, dass die Analyse der VC-Dimension nicht relevant ist, geben Sie bitte Hinweise / Erklärungen, dass Deep Learning verallgemeinernd und nicht überpassend ist. Dh hat es einen guten Rückruf UND Präzision oder nur einen guten Rückruf? Ein 100% iger Rückruf ist ebenso trivial wie eine 100% ige Präzision. Beides in die Nähe von 100% zu bringen ist sehr schwierig.
Im Gegenteil, hier ist ein Beweis dafür, dass tiefes Lernen überpassend ist. Ein Overfit-Modell ist leicht zu täuschen, da es deterministisches / stochastisches Rauschen enthält. Das folgende Bild zeigt ein Beispiel für eine Überanpassung.
Lesen Sie auch die Antworten auf diese Frage mit niedrigerem Rang , um die Probleme mit einem Überpassungsmodell trotz guter Genauigkeit der Testdaten zu verstehen.
Einige haben geantwortet, dass Regularisierung das Problem einer großen VC-Dimension löst . Siehe diese Frage zur weiteren Diskussion.