Ich denke, dies ist eine einfache Frage, obwohl die Gründe dafür, warum oder warum nicht, möglicherweise nicht zutreffen. Der Grund, den ich frage, ist, dass ich kürzlich meine eigene Implementierung eines RF geschrieben habe und obwohl es gut funktioniert, funktioniert es nicht ganz so gut, wie ich es erwartet hatte (basierend auf dem Wettbewerbsdatensatz der Kaggle Photo Quality Prediction , den Gewinnergebnissen und einigen von ihnen die nachfolgenden Informationen darüber, welche Techniken verwendet wurden).
Das erste, was ich unter solchen Umständen mache, ist ein Plot-Vorhersagefehler für mein Modell. Daher bestimme ich für jeden gegebenen Vorhersagewert die mittlere Abweichung (oder Abweichung) vom richtigen Zielwert. Für meine RF habe ich diese Handlung bekommen:
Ich frage mich, ob dies ein häufig beobachtetes Bias-Muster für RF ist (wenn nicht, könnte es möglicherweise etwas Spezifisches für den Datensatz und / oder meine Implementierung sein). Ich kann dieses Diagramm natürlich verwenden, um Vorhersagen zu verbessern, indem ich es zum Ausgleich der Verzerrung verwende, aber ich frage mich, ob das RF-Modell selbst einen grundlegenderen Fehler oder Mangel aufweist, der behoben werden muss. Vielen Dank.
== ADDENDUM ==
Meine erste Untersuchung ist bei diesem Blogeintrag Random Forest Bias - Update