Ich versuche, einen Balance Score vorherzusagen und habe verschiedene Regressionsmethoden ausprobiert. Eine Sache, die mir aufgefallen ist, ist, dass die vorhergesagten Werte eine Art Obergrenze zu haben scheinen. Das heißt, der tatsächliche Saldo liegt bei , aber meine Vorhersagen liegen bei etwa . Das folgende Diagramm zeigt das tatsächliche gegenüber dem vorhergesagten Gleichgewicht (vorhergesagt mit linearer Regression):0,8
Und hier sind zwei Verteilungsdiagramme derselben Daten:
Da meine Prädiktoren sehr verzerrt sind (Benutzerdaten mit Potenzgesetzverteilung), habe ich eine Box-Cox-Transformation angewendet, die die Ergebnisse wie folgt ändert:
Obwohl es die Verteilung der Vorhersagen ändert, gibt es immer noch diese Obergrenze. Meine Fragen sind also:
- Was sind mögliche Gründe für solche Obergrenzen in Vorhersageergebnissen?
- Wie kann ich die Vorhersagen so festlegen, dass sie der Verteilung der tatsächlichen Werte entsprechen?
Bonus: Da die Verteilung nach der Box-Cox-Transformation den Verteilungen der transformierten Prädiktoren zu folgen scheint, ist es möglich, dass dies direkt verknüpft ist? Wenn ja, kann ich eine Transformation anwenden, um die Verteilung an die tatsächlichen Werte anzupassen?
Bearbeiten: Ich habe eine einfache lineare Regression mit 5 Prädiktoren verwendet.