In den meisten Situationen sind mehr Daten normalerweise besser . Überanpassung ist im Wesentlichen das Erlernen von falschen Korrelationen, die in Ihren Trainingsdaten auftreten, jedoch nicht in der realen Welt. Wenn Sie beispielsweise nur meine Kollegen in Betracht ziehen, lernen Sie möglicherweise, "Matt" mit "hat einen Bart" zu assoziieren. Es ist zu 100% gültig ( , gerade!), Aber es ist offensichtlich im Allgemeinen nicht wahr. Durch Erhöhen der Größe Ihres Datensatzes (z. B. auf das gesamte Gebäude oder die gesamte Stadt) sollten diese falschen Korrelationen verringert und die Leistung Ihres Lernenden verbessert werden.n = 4
Das heißt, eine Situation, in der mehr Daten nicht helfen - und sogar schaden können - ist, wenn Ihre zusätzlichen Trainingsdaten verrauscht sind oder nicht mit dem übereinstimmen, was Sie vorhersagen möchten. Ich habe einmal ein Experiment durchgeführt, bei dem ich verschiedene Sprachmodelle [*] an ein sprachaktiviertes Restaurantreservierungssystem angeschlossen habe. Ich habe die Menge der Trainingsdaten und deren Relevanz variiert: In einem Extremfall hatte ich eine kleine, sorgfältig zusammengestellte Sammlung von Personenbuchungstabellen, die perfekt zu meiner Anwendung passten. Auf der anderen Seite hatte ich ein Modell aus einer riesigen Sammlung klassischer Literatur, ein genaueres Sprachmodell, das aber viel schlechter zur Anwendung passte. Zu meiner Überraschung hat das kleine, aber relevante Modell das große, aber weniger relevante Modell bei weitem übertroffen.
Eine überraschende Situation, die als Doppelabstieg bezeichnet wird , tritt auch auf, wenn die Größe des Trainingssatzes nahe an der Anzahl der Modellparameter liegt. In diesen Fällen nimmt das Testrisiko zunächst mit zunehmender Größe des Trainingssatzes ab, steigt vorübergehend an, wenn ein bisschen mehr Trainingsdaten hinzugefügt werden, und beginnt schließlich wieder abzunehmen, wenn der Trainingssatz weiter wächst. Dieses Phänomen wurde 25 Jahre in der Literatur über neuronale Netze berichtet (siehe Opper, 1995), tritt aber auch in modernen Netzen auf ( Advani und Saxe, 2017 ). Interessanterweise geschieht dies sogar für eine lineare Regression, wenngleich eine von SGD angepasste ( Nakkiran, 2019)). Dieses Phänomen ist noch nicht vollständig verstanden und ist größtenteils von theoretischem Interesse: Ich würde es sicherlich nicht als Grund verwenden, keine weiteren Daten zu sammeln (obwohl ich möglicherweise mit der Größe des Trainingssatzes herumspielen würde, wenn n == p und die Leistung unerwartet schlecht wären ).
[*] Ein Sprachmodell ist nur die Wahrscheinlichkeit, eine bestimmte Folge von Wörtern zu sehen, z. B. . Sie sind wichtig, um halbwegs anständige Sprach- / Zeichenerkenner zu entwickeln.P( wn= 'schnell', wn + 1= 'braun', wn + 2= 'Fuchs' )
Etwas Interesse