Ich führe eine große OLS-Regression durch, bei der alle unabhängigen Variablen (ca. 400) Dummy-Variablen sind. Wenn alle enthalten sind, gibt es eine perfekte Multikollinearität (die Dummy-Variablenfalle), daher muss ich eine der Variablen weglassen, bevor ich die Regression ausführe.
Meine erste Frage ist, welche Variable soll weggelassen werden? Ich habe gelesen, dass es besser ist, eine Variable wegzulassen, die in vielen Beobachtungen vorhanden ist, als eine, die nur in wenigen vorhanden ist (z. B. wenn fast alle Beobachtungen "männlich" oder "weiblich" sind und nur wenige "unbekannt" sind ", entweder" männlich "oder" weiblich "weglassen). Ist das gerechtfertigt?
Nachdem ich die Regression mit einer ausgelassenen Variablen ausgeführt habe, kann ich den Koeffizientenwert der ausgelassenen Variablen schätzen, da ich weiß, dass der Gesamtmittelwert aller meiner unabhängigen Variablen 0 sein sollte. Daher verwende ich diese Tatsache, um die Koeffizientenwerte für alle Variablen zu verschieben eingeschlossene Variablen und erhalten eine Schätzung für die ausgelassene Variable. Meine nächste Frage ist, ob es eine ähnliche Technik gibt, mit der der Standardfehler für den Koeffizientenwert der ausgelassenen Variablen geschätzt werden kann. So wie es ist, muss ich die Regression ohne eine andere Variable (und einschließlich der Variablen, die ich in der ersten Regression weggelassen hatte) erneut ausführen, um eine Standardfehlerschätzung für den Koeffizienten der ursprünglich ausgelassenen Variablen zu erhalten.
Schließlich stelle ich fest, dass die Koeffizientenschätzungen, die ich (nach der Neuzentrierung um Null) erhalte, geringfügig variieren, je nachdem, welche Variable weggelassen wird. Wäre es theoretisch besser, mehrere Regressionen durchzuführen, bei denen jeweils eine andere Variable weggelassen wird, und dann die Koeffizientenschätzungen aus allen Regressionen zu mitteln?