Ich habe das Caret-Paket in R verwendet, um Vorhersagemodelle für Klassifizierung und Regression zu erstellen. Caret bietet eine einheitliche Oberfläche, um Modell-Hyperparameter durch Cross-Validierung oder Boot-Strapping zu optimieren. Wenn Sie beispielsweise ein einfaches Modell für die Klassifizierung der nächsten Nachbarn erstellen, wie viele Nachbarn sollten Sie verwenden? 2? 10? 100? Caret hilft Ihnen bei der Beantwortung dieser Frage, indem Sie Ihre Daten erneut abtasten, verschiedene Parameter ausprobieren und dann die Ergebnisse aggregieren, um zu entscheiden, welche die beste Vorhersagegenauigkeit ergeben.
Ich mag diesen Ansatz, weil er eine robuste Methodik für die Auswahl von Modell-Hyperparametern bietet. Wenn Sie die endgültigen Hyperparameter ausgewählt haben, liefert er eine kreuzvalidierte Schätzung, wie gut das Modell ist, wobei die Genauigkeit für Klassifizierungsmodelle verwendet wird und RMSE für Regressionsmodelle.
Ich habe jetzt einige Zeitreihendaten, für die ich ein Regressionsmodell erstellen möchte, wahrscheinlich unter Verwendung einer zufälligen Gesamtstruktur. Was ist angesichts der Art der Daten eine gute Technik, um die Vorhersagegenauigkeit meines Modells zu bewerten? Wenn zufällige Gesamtstrukturen nicht wirklich für Zeitreihendaten gelten, wie lässt sich dann ein genaues Ensemblemodell für die Zeitreihenanalyse erstellen?