Für eine Überanpassung bei der Modellauswahl ist dann ein lesenswertes Papier
C. Ambroise und GJ McLachlan, "Selection Bias in der Genextraktion auf der Basis von Microarray-Genexpressionsdaten", PNAS, vol. 99 nr. 10 6562-6566, Mai 2002. http://dx.doi.org/10.1073/pnas.102102699
Eine Diskussion der gleichen Art von Problem, die bei der Modellauswahl auftritt, finden Sie unter
GC Cawley, NLC Talbot, "Über Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung", Journal of Machine Learning Research, 11 (Jul): 2079-2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html
Die Möglichkeit, das Problem zu lösen, dass der Validierungssatz verunreinigt wird, besteht in der Verwendung einer verschachtelten Kreuzvalidierung. Daher wird die Methode zur Auswahl des Modells in jeder Falte der für die Leistungsschätzung verwendeten Kreuzvalidierung unabhängig durchgeführt. Im Wesentlichen muss die Leistungsschätzung die Leistung des gesamten Modellanpassungsverfahrens (Anpassen des Modells, Merkmalsauswahl, Modellauswahl, alles) schätzen.
Der andere Ansatz ist, ein Bayesianer zu sein. Das Risiko einer Überanpassung wird immer dann eingeführt, wenn Sie ein Kriterium basierend auf einer endlichen Stichprobe von Daten optimieren. Wenn Sie also eher marginalisieren (integrieren) als optimieren, ist eine klassische Überanpassung unmöglich. Sie haben jedoch das Problem, die Prioritäten anzugeben.