Ich habe einige Vorhersagemodelle, deren Leistung ich zurücktesten möchte (dh ich nehme meinen Datensatz, spule ihn zu einem früheren Zeitpunkt zurück und sehe, wie sich das Modell prospektiv entwickelt hätte).
Das Problem ist, dass einige meiner Modelle über einen interaktiven Prozess erstellt wurden. Zum Beispiel habe ich gemäß den Ratschlägen in Frank Harrells Regressionsmodellierungsstrategien in einem Modell eingeschränkte kubische Splines verwendet, um mögliche nichtlineare Assoziationen zwischen Merkmalen und der Antwort zu behandeln. Ich habe die Freiheitsgrade jedes Splines basierend auf einer Kombination aus Domänenwissen und univariaten Maßstäben für die Assoziationsstärke zugewiesen. Die Freiheitsgrade, die ich meinem Modell erlauben möchte, hängen natürlich von der Größe des Datensatzes ab, die sich beim Backtesting dramatisch ändert. Welche anderen Optionen stehen mir zur Verfügung, wenn ich Freiheitsgrade nicht für jedes Mal, wenn das Modell erneut getestet wird, separat von Hand auswählen möchte?
Als weiteres Beispiel arbeite ich derzeit an der Ausreißererkennung, indem ich Punkte mit hoher Hebelwirkung finde. Wenn ich dies gerne von Hand tun würde, würde ich einfach jeden Datenpunkt mit hohem Hebel prüfen, die Richtigkeit der Daten überprüfen und sie entweder herausfiltern oder von Hand bereinigen. Dies hängt jedoch von einer Reihe von Domänenkenntnissen ab, sodass ich nicht weiß, wie ich den Prozess automatisieren kann.
Ich würde Ratschläge und Lösungen sowohl (a) für das allgemeine Problem der Automatisierung interaktiver Teile des Modellbildungsprozesses als auch (b) spezifische Ratschläge für diese beiden Fälle begrüßen. Vielen Dank!