Traditionell verwenden wir ein gemischtes Modell, um longitudinale Daten zu modellieren, dh Daten wie:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
Wir können für verschiedene Personen zufällige Abschnitte oder Steigungen annehmen. Die Frage, die ich zu lösen versuche, wird jedoch riesige Datenmengen umfassen (Millionen von Personen, 1 Monat tägliche Beobachtung, dh jede Person wird 30 Beobachtungen haben). Derzeit ist mir nicht bekannt, ob Pakete diese Datenmenge liefern können.
Ich habe Zugriff auf Spark / Mahout, aber sie bieten keine gemischten Modelle an. Meine Frage ist jedoch, ob ich meine Daten so ändern kann, dass ich RandomForest oder SVM zum Modellieren dieses Datensatzes verwenden kann.
Gibt es eine Feature-Engineering-Technik, auf die ich zurückgreifen kann, um RF / SVM bei der Berücksichtigung der Autokorrelation zu unterstützen?
Danke vielmals!
Einige mögliche Methoden, aber ich konnte es mir nicht leisten, sie in spark zu schreiben
Wie kann ich zufällige Effekte in einen randomForest einbinden?