Bisher habe ich kollineare Variablen als Teil des Datenvorbereitungsprozesses entfernt, indem ich Korrelationstabellen betrachtet und Variablen beseitigt habe, die über einem bestimmten Schwellenwert liegen. Gibt es eine akzeptiertere Art, dies zu tun? Außerdem ist mir bewusst, dass es nicht ideal ist, nur die Korrelation zwischen zwei Variablen gleichzeitig zu betrachten. Messungen wie VIF berücksichtigen die potenzielle Korrelation zwischen mehreren Variablen. Wie würde man systematisch Variablenkombinationen auswählen, die keine Multikollinearität aufweisen?
Ich habe meine Daten innerhalb eines Pandadatenrahmens und verwende die Modelle von sklearn.