Ich verwende zufällige Gesamtstruktur für hochdimensionale gruppierte Daten (50 numerische Eingabevariablen), die eine hierachische Struktur haben. Die Daten wurden mit 6 Replikationen an 30 Positionen von 70 verschiedenen Objekten gesammelt, was zu 12600 Datenpunkten führte, die nicht unabhängig sind.
Es scheint, dass eine zufällige Gesamtstruktur die Daten überpasst, da der oob-Fehler viel kleiner ist als der Fehler, den wir erhalten, wenn wir Daten von einem Objekt während des Trainings weglassen und dann das Ergebnis des ausgelassenen Objekts mit der trainierten zufälligen Gesamtstruktur vorhersagen. Außerdem habe ich Residuen korreliert.
Ich denke, die Überanpassung wird verursacht, da zufällige Gesamtstruktur unabhängige Daten erwartet. Ist es möglich, die zufällige Gesamtstruktur über die hierarchische Struktur der Daten zu informieren? Oder gibt es eine andere leistungsstarke Ensemble- oder Schrumpfungsmethode, die hochdimensionale gruppierte Daten mit einer starken Interaktionsstruktur verarbeiten kann?
Irgendein Hinweis, wie ich es besser machen kann?