Zufälliger Wald mit Längsschnittdaten

Ich habe viele Messungen für mehrere Personen, bin mir aber nicht sicher, wie ich diese Wiederholungsmessstruktur beim Ausführen eines zufälligen Waldmodells berücksichtigen soll.

Gibt es eine Möglichkeit, die zugrunde liegende Datenstruktur von Längsschnittdaten mithilfe eines zufälligen Waldmodells zu berücksichtigen?

Ist das überhaupt nötig? - es scheint mir, dass es sein sollte ...

Ich möchte dies besonders gerne durchführen können R.

r repeated-measures random-forest panel-data

— der Waldökologe
quelle

Hinweis: Ich habe dies kurz und einfach gehalten, um zu sehen, ob ich endlich einige Antworten auf eine Frage finden kann. Wenn jemand mehr Informationen oder eine Erweiterung dieser Frage wünscht, kommentieren Sie bitte vs. Downvoting. Auch hier ist es nicht kurz, weil es an vorheriger Forschung mangelt, sondern weil ich möchte, dass die Leute tatsächlich darauf reagieren ...: p

— Theforestecologist

Können Sie mit dieser Analyse näher auf Ihr Ziel eingehen?

— Dimitriy V. Masterov

Mein Ziel ist es, ein Vorhersagemodell zu erstellen. Das Modell würde die Baumhöhe anhand des Baumdurchmessers unter Berücksichtigung der Baumart und der Parzellenposition vorhersagen. Jeder Baum wird über Jahrzehnte hinweg mehrmals abgetastet, sodass die Messungen innerhalb von Individuen zusammengefasst werden.

— Theforestecologist

Warum überhaupt darauf bestehen, zufällige Wälder mit Zeitreihen zu verwenden? In der Statistik zur multiplen Imputation in Zeitreihen gibt es eine umfangreiche Literatur, ganz zu schweigen von der Vielzahl der vorhandenen Methoden zur Modellierung und Vorhersage von Zeitreihen. Bei der Verwendung von RFs wird dieser Verlauf ignoriert, während er tatsächlich mit einem stumpfen Instrument neu erstellt wird. Nur weil Sie einen Hammer (RFs) haben, ist nicht alles ein Nagel.

— Mike Hunter

Ok ... die Literatur zur multiplen Imputation beginnt wahrscheinlich mit Little und Rubins ausgezeichnetem Buch Statistical Analysis with Missing Data. Dort entwickeln sie die jetzt kanonischen Begriffe von MAR, MCAR usw. In jüngerer Zeit hat Paul Allisons gut lesbares Sage-Buch Multiple Imputation for Missing Data einen guten Überblick über die Literatur bis zu ihrer Veröffentlichung. In jüngerer Zeit werden Sorjanas Methoden zur Vorhersage von Zeitreihen und zur Imputation fehlender Werte empfohlen, aber ich bin damit nicht vertraut.

— Mike Hunter

Antworten:

In einem früheren Beitrag wurden gemischte Effekte für Cluster- / Längsschnittdaten erörtert.

Wie kann ich zufällige Effekte in einen randomForest aufnehmen?

Hier ist eine gute Referenz für die Implementierung von Entscheidungsbäumen in R: http://statistical-research.com/a-brief-tour-of-the-trees-and-forests/

Sie können diese Folien auch unter http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf überprüfen

— Jon
quelle

Sie können die folgenden Pakete in R ausprobieren:

REEMtree : Dies ist kein zufälliger Wald, sondern ein einzelnes Baummodell, bei dem Unterschiede zwischen Objekten im Laufe der Zeit berücksichtigt werden (sogenannte zufällige oder gemischte Effekte) und mehrere Bäume möglicherweise zusammengesetzt werden können, oder
glmertree : wie Ansätze, die segmentweise konstante Mittelwerte berücksichtigen können - die angepasst werden könnten, um individuelle spezifische Wachstumsmuster zu berücksichtigen (siehe hier ).

Oder setzen Sie einfach das Alter als Variable in Ihr Modell ein, um mindestens das Bit der einzelnen Baummerkmale zu berücksichtigen?

— nils
quelle

Können Sie etwas mehr Fleisch darauf legen, als ob die Links tot sind, wird die Antwort nicht mehr hilfreich sein.

— Mdewey

Es gibt auch Papiere auf den Paketen: REEMtree ( springerlink.com/content/ng44781g47736260 ) und glmertree ( econpapers.repec.org/paper/innwpaper/2015-10.htm )

— nils