Wie können Sie feststellen, ob ein Gaußscher Prozess überpasst?

Ich trainiere einen Gaußschen Prozess mit einem ARD-Kernel mit vielen Parametern, indem ich die marginale Lielihood der Daten maximiere, anstatt sie gegenseitig zu validieren.

Ich vermute, dass es überpassend ist. Wie kann ich diesen Verdacht in einem Bayes'schen Kontext testen?

machine-learning cross-validation gaussian-process

— Nickponline
quelle

Am einfachsten wäre es, einen Gaußschen Prozess mit der nicht-ARD-äquivalenten Kovarianzfunktion (normalerweise der RBF) anzupassen und die Testfehlerraten zu vergleichen. Bei vielen Problemen ist eine ARD -Kovarianzfunktion aufgrund der Überanpassung beim Einstellen der Hyperparameter schlechter als eine Nicht-ARD-Kovarianzfunktion. Da die RBF-Kovarianz ein Sonderfall der ARD-Kovarianz ist, ist dies ein starker Hinweis darauf, dass der ARD-Kernel überanpasst (beginnen Sie mit der Optimierung der ARD-Koeffizienten bei den optimalen Werten für die entsprechende RBF-Kovarianz) schneller und trägt auch dazu bei, dass das Problem mit der ARD-Kovarianz nicht nur auf lokale Minima in der Grenzwahrscheinlichkeit zurückzuführen ist. Dies ist ein viel größeres Problem als allgemein angenommen.

Ich habe ein paar Artikel dazu geschrieben:

GC Cawley und NLC Talbot, Verhinderung einer Überanpassung während der Modellauswahl durch Bayes'sche Regularisierung der Hyperparameter, Journal of Machine Learning Research, Band 8, Seiten 841-861, April 2007 ( pdf )

und

GC Cawley und NLC Talbot, Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung, Journal of Machine Learning Research, 2010. Research, vol. 11, S. 2079-2107, Juli 2010 ( pdf )

Das erste beinhaltet einige Experimente mit Hausärzten, die zeigen, dass eine Überanpassung bei der Modellauswahl auch ein Problem für Hausärzte mit einer auf der Maximierung der Grenzwahrscheinlichkeit basierenden Modellauswahl darstellt.

Eine gründlichere Analyse wäre die Bewertung des Testfehlers des Hausarztes bei jedem Schritt im Prozess der Optimierung der Grenzwahrscheinlichkeit. Es ist sehr wahrscheinlich, dass Sie die klassische Hall-Marke der Überanpassung erhalten, bei der das Modellauswahlkriterium monoton abnimmt, der Testfehler jedoch zunächst abnimmt, dann aber wieder ansteigt, wenn das Modellauswahlkriterium überoptimiert wird (vgl Abbildung 2a im JMLR-Papier 2010).

— Dikran Beuteltier
quelle

Cool, danke - ich lese gerade den ersten durch. Haben Sie einen effektiveren Weg gefunden, um eine erneute Überanpassung mit Kerneln mit vielen Parametern wie ARD erneut zu regulieren, wenn der Term der Modellkomplexität in der Grenzwahrscheinlichkeit nicht ausreicht, um eine Überanpassung zu verhindern?

— Nickponline

Ich vermute, dass es am robustesten ist, die Hyperparameter mit Markov-Ketten-Monte-Carlo-Methoden zu marginalisieren. Für die Größe des Datensatzes, für den Allgemeinmediziner verwendet werden (bis zu einigen tausend Mustern), vermute ich, dass eine Überanpassung der Grenzwahrscheinlichkeit so gut wie unvermeidlich ist. IMHO-Optimierung ist die Wurzel allen Übels in der Statistik, wenn Sie etwas optimieren, laufen Sie Gefahr, überpasst zu werden. Der Bayes'sche Ansatz ist in diesem Sinne viel besser, aber Sie laufen stattdessen Gefahr, Schwierigkeiten zu haben, weil die Prioritäten falsch sind :-(

— Dikran Marsupial

@DikranMarsupial Gibt es aktuelle Forschungsergebnisse zur Vermeidung von Überanpassungen mit Variational GP-Methoden?

— Imsrgadich