Zufällige Gesamtstruktur für gruppierte Daten

10

Ich verwende zufällige Gesamtstruktur für hochdimensionale gruppierte Daten (50 numerische Eingabevariablen), die eine hierachische Struktur haben. Die Daten wurden mit 6 Replikationen an 30 Positionen von 70 verschiedenen Objekten gesammelt, was zu 12600 Datenpunkten führte, die nicht unabhängig sind.

Es scheint, dass eine zufällige Gesamtstruktur die Daten überpasst, da der oob-Fehler viel kleiner ist als der Fehler, den wir erhalten, wenn wir Daten von einem Objekt während des Trainings weglassen und dann das Ergebnis des ausgelassenen Objekts mit der trainierten zufälligen Gesamtstruktur vorhersagen. Außerdem habe ich Residuen korreliert.

Ich denke, die Überanpassung wird verursacht, da zufällige Gesamtstruktur unabhängige Daten erwartet. Ist es möglich, die zufällige Gesamtstruktur über die hierarchische Struktur der Daten zu informieren? Oder gibt es eine andere leistungsstarke Ensemble- oder Schrumpfungsmethode, die hochdimensionale gruppierte Daten mit einer starken Interaktionsstruktur verarbeiten kann?

Irgendein Hinweis, wie ich es besser machen kann?

regression random-forest

— Beate
quelle

Wie sind die hierarchischen Daten beschaffen? Können Sie die Blätter der Daten als Datenpunkte verwenden?

— CasperOne

1

Haben Sie darüber nachgedacht, die höchste Ebene der Hierarchie und nicht die Einzelperson zu booten?

— generic_user

1

Sehr spät zur Party, aber ich denke, das könnte mit etwas zusammenhängen, das ich vor ein paar Jahren gemacht habe. Diese Arbeit wurde hier veröffentlicht:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

und es geht darum, mit variabler Korrelation in ein Ensemble von Entscheidungsbäumen umzugehen. Sie sollten sich die Bibliographie ansehen, die auf viele Vorschläge zur Behandlung dieser Art von Problemen verweist (was im "genetischen" Bereich üblich ist).

Der Quellcode ist hier verfügbar (wird aber nicht mehr wirklich gepflegt).

— 0asa
quelle

-1

Eine Überanpassung des zufälligen Waldes kann aus verschiedenen Gründen verursacht werden und hängt stark von den HF-Parametern ab. Aus Ihrem Beitrag geht nicht hervor, wie Sie Ihre RF eingestellt haben.

Hier sind einige Tipps, die helfen können:

Erhöhen Sie die Anzahl der Bäume
Stellen Sie die maximale Tiefe der Bäume ein. Dieser Parameter hängt stark vom jeweiligen Problem ab. Die Verwendung kleinerer Bäume kann bei Überanpassungsproblemen helfen.

— Bella Fadida
quelle

2

Sehr spät zur Partei, aber diese Antwort wird keine Probleme aufgrund einer hierarchischen Natur des Datensatzes lösen.

— cbeleites unglücklich mit SX