Mir ist bewusst, dass kategoriale Variablen mit k Ebenen mit k-1 Variablen in Dummy-Codierung codiert werden sollten (ähnlich für mehrwertige kategoriale Variablen). Ich habe mich gefragt, wie problematisch eine One-Hot-Codierung (dh die Verwendung von k Variablen) gegenüber einer Dummy-Codierung für verschiedene Regressionsmethoden ist, hauptsächlich lineare Regression, bestrafte lineare Regression (Lasso, Ridge, ElasticNet), baumbasierte (zufällige Wälder) , Gradientenverstärkungsmaschinen).
Ich weiß, dass bei der linearen Regression Multi-Kollinearitätsprobleme auftreten (obwohl ich in der Praxis die lineare Regression mit OHE ohne Probleme angepasst habe).
Muss jedoch in allen eine Dummy-Codierung verwendet werden, und wie falsch wären die Ergebnisse, wenn eine One-Hot-Codierung verwendet wird?
Mein Fokus liegt auf der Vorhersage in Regressionsmodellen mit mehreren kategorialen Variablen (mit hoher Kardinalität), daher bin ich nicht an Konfidenzintervallen interessiert.