In vielen Anwendungen des maschinellen Lernens haben die sogenannten Datenerweiterungsmethoden die Erstellung besserer Modelle ermöglicht. Nehmen Sie zum Beispiel einen Trainingssatz mit Bildern von Katzen und Hunden an. Durch Drehen, Spiegeln, Anpassen des Kontrasts usw. ist es möglich, zusätzliche Bilder aus den Originalbildern zu generieren.
Bei Bildern ist die Datenerweiterung relativ einfach. Angenommen, man hat (zum Beispiel) einen Trainingssatz von Stichproben und einige hundert stetige Variablen, die verschiedene Dinge darstellen. Die Datenerweiterung erscheint nicht mehr so intuitiv. Was könnte in einem solchen Fall getan werden?