Ich trainiere ein Klassifizierungsmodell mit Random Forest, um zwischen 6 Kategorien zu unterscheiden. Meine Transaktionsdaten umfassen ungefähr 60.000 Beobachtungen und 35 Variablen. Hier ist ein Beispiel, wie es ungefähr aussieht.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Sobald das Modell erstellt ist, möchte ich die Beobachtungen der letzten Woche notieren. Da das System geändert wurde, ähneln die neueren Beobachtungen eher der Umgebung der aktuellen Beobachtungen, die ich vorhersagen möchte. Daher möchte ich eine Gewichtsvariable erstellen, damit der Zufalls-Wald den jüngsten Beobachtungen mehr Bedeutung beimisst.
Weiß jemand, ob das randomForest-Paket in R Gewichte pro Beobachtung verarbeiten kann?
Können Sie auch eine gute Methode zum Erstellen der Gewichtsvariablen vorschlagen? Da meine Daten zum Beispiel aus dem Jahr 2013 stammen, dachte ich, dass ich die Monatszahl vom Datum als Gewicht nehmen kann. Hat jemand ein Problem mit dieser Methode?
Vielen Dank im Voraus!