Ich habe eine philosophische Frage bezüglich der ausgelassenen variablen Verzerrung.
Wir haben das typische Regressionsmodell (Populationsmodell) dem die Stichproben stammen , und dann eine Reihe von Bedingungen, unter denen sich die OLS-Schätzungen recht gut verhalten.
Dann wissen wir, dass, wenn wir eine der , dies die Schätzungen von . Dies würde zumindest die geschätzte Auswirkung der übrigen Variablen auf und auch die Hypothesentests zu , da die vorhergesagten Werte nicht zuverlässig sind.
Die Sache ist, wir wissen nicht, welche Variablen im wahren Populationsmodell sind. Stattdessen haben wir eine Reihe von Kandidaten, aus denen wir die am besten geeignete Teilmenge analysieren und herausfinden sollten. Bei diesem Prozess der Variablenauswahl werden erneut OLS-Schätzungen und Hypothesentests verwendet. Auf dieser Grundlage lehnen wir verschiedene Variablen ab oder schließen sie ein. Aber da jedes Kandidatenmodell relevante Variablen weglässt (Sie werden nie das wahre Modell finden können), würden diese Entscheidungen nicht auf voreingenommenen Ergebnissen basieren? Warum sollten wir ihnen dann vertrauen?
(Ich denke zum Beispiel an eine schrittweise Vorwärtsmethode, bei der Sie eine Variable auswählen und dann den Rest hinzufügen. Sie vergleichen die Modelle, die Inferenz durchführen, und ich denke, dass ausgelassene Variablen alles stören können.)
Ich war nie zu besorgt über dieses Thema, bis ich anfing darüber nachzudenken, und ich bin sicher, dass ich irgendwo falsch liege.
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
ist das wirklich das, was du meinst oder getan hast, ein Teil deines Satzes wird abgeschnitten. Sie haben auch einen Rechtschreibfehler im Titel der Frage.