Ich denke, Sie können einige dieser Probleme basierend auf Ihrem Domänenwissen lösen. 21 Prädiktoren sind mit 11.000 Datensätzen nicht viel, wenn Ihre Ergebnisvariable ein kontinuierliches Maß ist. Die Probleme, mit denen Sie konfrontiert sind, sind also, welche Prädiktoren und Interaktionen einbezogen werden müssen und wie mit Kollinearität umgegangen werden soll.
Zum Erstellen des Modells möchten Sie möglicherweise keinen Ihrer 21 ursprünglichen Prädiktoren weglassen. Wenn Sie 1 von 2 stark korrelierten Prädiktoren weglassen, werfen Sie die von dem, den Sie weglassen, bereitgestellten Informationen aus und laufen Gefahr, dass Ihre Ergebnisse zu eng mit den Besonderheiten dieser korrelierten Variablen in der jeweiligen Stichprobe verknüpft sind, die Sie analysieren. Hängen Sie auch nicht von der Korrelation unabhängiger Variablen mit Ihrer abhängigen Variablen ab, um Prädiktoren für die Aufnahme auszuwählen. Wenn einige Prädiktoren schlecht mit der abhängigen Variablen korreliert bleiben, kann dies dazu beitragen, die Leistung anderer Prädiktoren zu verbessern, selbst wenn keine Interaktionen vorliegen.
Erwägen Sie für Interaktionen das Hinzufügen von Interaktionen, die Sie aufgrund Ihres Domänenwissens für wichtig halten. Das ist vermutlich viel weniger als die 420 möglichen 2-Wege-Interaktionen zwischen 21 Prädiktoren, so dass Sie immer noch eine relativ kleine Anzahl unabhängiger Variablen haben. Sie könnten sogar in Betracht ziehen, überhaupt keine Interaktionen einzubeziehen und zu prüfen, ob die 21 Prädiktoren für ihre Zwecke gut genug funktionieren. Manchmal ist es am besten, einfach zu beginnen und die Komplexität nur nach Bedarf zu erhöhen.
Ein Weg, um mit Kollinearität umzugehen, würde auf Domänenwissen basieren: Kombinieren Sie korrelierte Prädiktoren zu einem einzigen Prädiktor, der das wesentliche zugrunde liegende Phänomen erfasst, das diese korrelierten Prädiktoren darstellen. Dies scheint mit Ihrem Ziel übereinzustimmen, Ihr Modell als Inferenz zu verwenden. Wenn Sie korrelierte Prädiktoren auf eine Weise kombinieren können, die auf der Grundlage des Domänenwissens vertretbar ist, können Sie die Anzahl der Prädiktoren im Modell auf eine Weise reduzieren, die die Inferenz erleichtert.
Um mit Kollinearität umzugehen, können Sie alternativ einen Ansatz wie die Gratregression verwenden, bei dem kollineare Prädiktoren zusammen behandelt werden. Mein Eindruck ist, dass die Gratregression eher für Vorhersagemodelle als für Inferenzmodelle verwendet wird, aber den Vorteil hat, dass die Kollinearität auf vernünftige Weise gehandhabt wird. Es werden Koeffizienten für alle Prädiktoren zurückgegeben, was je nach Perspektive entweder ein Vorteil oder ein Nachteil ist. Einige bevorzugen möglicherweise LASSO als Inferenz, da es nur eine Teilmenge von Prädiktoren enthält, aber seine besondere Wahl unter kollinearen Prädiktoren kann stichprobenabhängig sein, und Sie müssten dies bei der Interpretation der Ergebnisse berücksichtigen.
Ich vermute, dass ein größeres Problem als der Umgang mit 21 Prädiktorvariablen darin besteht, geeignete Skalierungstransformationen für Ihre Variablen zu finden, damit sie bei der Approximation eines linearen Modells einigermaßen gut funktionieren.