Ich bin ziemlich neu im maschinellen Lernen, in CART-Techniken und ähnlichem, und ich hoffe, dass meine Naivität nicht zu offensichtlich ist.
Wie geht Random Forest mit mehrstufigen / hierarchischen Datenstrukturen um (z. B. wenn eine Interaktion über mehrere Ebenen von Interesse ist)?
Das heißt, Datensätze mit Analyseeinheiten auf mehreren hierarchischen Ebenen ( z. B. in Schulen verschachtelte Schüler mit Daten sowohl zu den Schülern als auch zu den Schulen).
Betrachten Sie als Beispiel einen mehrstufigen Datensatz mit Personen auf der ersten Ebene ( z. B. Daten zum Wahlverhalten, zur Bevölkerungszahl usw.), der in Ländern auf der zweiten Ebene verschachtelt ist ( mit Daten auf Länderebene, z . B. Bevölkerung):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Nehmen wir an, dies voted
ist die Antwort- / abhängige Variable und die anderen sind Prädiktor- / unabhängige Variablen. In dieser Art von Fällen, Margen und marginale Effekte einer Variablen (Teilabhängigkeit) für ein übergeordnetes Variable ( zB , population
) für verschiedene Einzelebenen - Variablen etc., könnte sehr interessant sein. In einem ähnlichen Fall glm
ist dies natürlich angemessener - aber wenn es viele Variablen, Interaktionen und / oder fehlende Werte und / oder sehr große Datensätze usw. gibt, glm
ist dies nicht so zuverlässig.
Unterfragen: Kann Random Forest auf irgendeine Weise explizit mit dieser Art von Datenstruktur umgehen? Welche Art von Verzerrung bringt es mit sich, wenn es trotzdem verwendet wird? Wenn Random Forest nicht geeignet ist, gibt es eine andere Ensemble-Methode?
(Die Frage " Zufällige Gesamtstruktur für gruppierte Daten" ist möglicherweise ähnlich, beantwortet dies jedoch nicht wirklich.)