Wie ordne ich neueren Beobachtungen in R mehr Gewicht zu?
Ich nehme dies als häufig gestellte Frage oder Wunsch an, aber es fällt mir schwer, genau herauszufinden, wie ich dies umsetzen soll. Ich habe versucht, viel danach zu suchen, aber ich kann kein gutes praktisches Beispiel finden.
In meinem Beispiel hätte ich im Laufe der Zeit einen großen Datensatz. Ich möchte sagen, dass Sie eine Art exponentielle Gewichtung der neueren Datenzeilen anwenden. Ich hätte also eine Art Exponentialfunktion, die besagt, dass Beobachtungen im Jahr 2015 für das Training des Modells ___ wichtiger sind als Beobachtungen im Jahr 2012.
Meine Datensatzvariablen enthalten eine Mischung aus kategorialen und numerischen Werten, und mein Ziel ist ein numerischer Wert - falls dies wichtig ist.
Ich möchte dies mit Modellen wie GBM / Random Forest testen / ausprobieren, idealerweise im CARET-Paket.
Update-Frage
Ich freue mich über die unten stehende Antwort, wie das Gewicht um den Datumsabstand zwischen zwei Punkten exponentiell verringert werden kann.
Wie genau berücksichtigen die Gewichte beim Training dieses Modells in Caret? Der Gewichtswert in jeder der Trainingsreihen ist der Abstand zwischen einem Punkt in der Zukunft und dem Zeitpunkt, zu dem dieser Punkt historisch aufgetreten ist.
Kommen die Gewichte nur während der Vorhersage ins Spiel? Denn wenn sie während des Trainings ins Spiel kommen, würde das nicht alle möglichen Probleme verursachen, da verschiedene Kreuzfalten unterschiedliche Gewichte haben und versuchen, etwas vorherzusagen, das tatsächlich zu einem Zeitpunkt davor vorliegen könnte?