Ich habe vor kurzem damit begonnen, die pareto-geglättete Stichprobenauswahl (PSIS-LOO) zu verwenden, die in den folgenden Abhandlungen beschrieben wird:
- Vehtari, A. & Gelman, A. (2015). Pareto glättete wichtige Stichproben. arXiv Preprint ( Link ).
- A. Vehtari, A. Gelman & J. Gabry (2016). Praktische Bayes'sche Modellbewertung mit einmaliger Kreuzvalidierung und WAIC. arXiv Preprint ( Link )
Dies ist ein sehr verlockender Ansatz für die Bewertung von Modellen außerhalb der Stichprobe, da er die Durchführung eines LOO-CV mit einem einzigen MCMC-Lauf ermöglicht und angeblich besser ist als vorhandene Informationskriterien wie WAIC.
SIPS-LOO hat eine Diagnose , Ihnen zu sagen , ob die Annäherung zuverlässig ist, und zwar durch die geschätzten Exponenten gegeben k i der Pareto - Verteilungen an den Schwänzen der empirischen Verteilungen von Bedeutung weigths (ein Gewicht pro Datenpunkt) ausgestattet. Kurz gesagt, wenn ein geschätztes Gewicht k i ≳ 0,7 , können schlimme Dinge passieren.
Leider fand ich , dass ich in meiner Anwendung dieser Methode auf mein Problem, für die Mehrheit der Modelle von Interesse , dass ein großer Teil des k i » 0,7 . Es ist nicht überraschend, dass einige der gemeldeten LOO-Log-Wahrscheinlichkeiten offensichtlich unsinnig waren (im Vergleich zu anderen Datensätzen). Zur Überprüfung führte ich eine herkömmliche (und zeitaufwändige) 10-fache Kreuzvalidierung durch und stellte fest, dass PSIS-LOO im obigen Fall tatsächlich furchtbar falsche Ergebnisse lieferte (auf der anderen Seite stimmten die Ergebnisse sehr gut mit 10 überein -fach CV für die Modelle , in denen alle k i « 0,7 ). Für die Aufzeichnung verwende ich die MATLAB-Implementierung von PSIS-LOO von Aki Vehtari.
Vielleicht habe ich nur großes Pech, dass mein aktuelles und erstes Problem, bei dem ich diese Methode anwende, für PSIS-LOO "schwierig" ist, aber ich vermute, dass dieser Fall relativ häufig ist. Für Fälle wie meinen heißt es in der Zeitung Vehtary, Gelman & Gabry einfach:
Dies sind offensichtliche, aber nicht wirklich ideale Lösungen, da sie alle zeitaufwändig sind oder zusätzliches Fummeln erfordern (ich schätze, dass es bei MCMC und Modellbewertung nur um Fummeln geht, aber je weniger , desto besser).
Gibt es eine allgemeine Methode, die wir im Voraus anwenden können, um zu verhindern, dass PSIS-LOO fehlschlägt? Ich habe ein paar vorläufige Ideen, aber ich frage mich, ob es bereits eine empirische Lösung gibt, die die Leute übernommen haben.