Ich bin ein Wirtschaftsstudent mit etwas Erfahrung in Ökonometrie und R. Ich würde gerne wissen, ob es jemals eine Situation gibt, in der wir eine Variable in eine Regression einbeziehen sollten, obwohl sie statistisch nicht signifikant ist.
Ich bin ein Wirtschaftsstudent mit etwas Erfahrung in Ökonometrie und R. Ich würde gerne wissen, ob es jemals eine Situation gibt, in der wir eine Variable in eine Regression einbeziehen sollten, obwohl sie statistisch nicht signifikant ist.
Antworten:
Ja!
Dass ein Koeffizient statistisch nicht von Null zu unterscheiden ist, bedeutet nicht , dass der Koeffizient tatsächlich Null ist, dass der Koeffizient irrelevant ist. Dass ein Effekt keinen willkürlichen Grenzwert für die statistische Signifikanz überschreitet, bedeutet nicht, dass man nicht versuchen sollte, ihn zu kontrollieren.
Im Allgemeinen sollte das vorliegende Problem und Ihr Forschungsdesign als Leitfaden für die Aufnahme von Regressoren dienen.
Und nicht nehmen dies als eine erschöpfende Liste. Es ist nicht schwer, Tonnen mehr zu finden ...
Eine Situation, in der dies häufig auftritt, ist eine Regression mit festen Effekten .
(Beachten Sie außerdem, dass die meisten Statistikpakete nicht einmal die Standardfehler für einzelne Fixeffekte anzeigen, wenn Sie die integrierten Methoden verwenden. Die Bedeutung einzelner Fixeffekte ist Ihnen eigentlich egal. Sie kümmern sich wahrscheinlich auch um ihre kollektive Bedeutung .)
Wenn Sie z. B. ein Polynom 2. Ordnung anpassen würden, würden Sie Folgendes ausführen:
Studierende der Newtonschen Mechanik können sich jedoch Ausnahmen vorstellen.
Angenommen, Sie haben ein AR (p) -Modell geschätzt, bei dem Sie auch Terme niedrigerer Ordnung einbeziehen würden. Für ein AR (2) würden Sie beispielsweise Folgendes ausführen:
Sie möchten Variablen auf der rechten Seite einbeziehen, wenn es gute theoretische Gründe dafür gibt.
Wie in anderen Antworten hier und in StackExchange erläutert, kann die schrittweise Auswahl von Variablen zahlreiche statistische Probleme verursachen.
Es ist auch wichtig zu unterscheiden zwischen:
Im letzteren Fall ist es problematisch zu argumentieren, dass der Koeffizient keine Rolle spielt. Es kann einfach schlecht gemessen werden.
Ja, das gibt es. Jede Variable, die auf aussagekräftige Weise mit Ihrer Antwortvariablen korreliert, selbst auf einer statistisch nicht signifikanten Ebene, kann Ihre Regression durcheinander bringen, wenn sie nicht enthalten ist. Dies wird als Unterspezifikation bezeichnet und führt zu Parameterschätzungen, die nicht so genau sind, wie sie sonst sein könnten.
https://onlinecourses.science.psu.edu/stat501/node/328
Von Oben:
Ein Regressionsmodell ist unterbestimmt (Ergebnis 2), wenn in der Regressionsgleichung eine oder mehrere wichtige Prädiktorvariablen fehlen. Diese Situation ist möglicherweise das Worst-Case-Szenario, da ein unterbestimmtes Modell verzerrte Regressionskoeffizienten und verzerrte Vorhersagen der Reaktion liefert. Das heißt, wenn wir das Modell verwenden, würden wir die Bevölkerungssteigungen und die Bevölkerungsmittel durchweg unterschätzen oder überschätzen. Um ohnehin schlechte Dinge noch schlimmer zu machen, neigt der mittlere Quadratfehler MSE dazu, σ² zu überschätzen, wodurch sich breitere Konfidenzintervalle ergeben, als es sollte.
Normalerweise schließen Sie Variablen für die lineare Regression aufgrund ihrer Bedeutung nicht ein oder aus. Sie schließen sie ein, weil Sie davon ausgehen, dass die ausgewählten Variablen (gute) Prädiktoren für die Regressionskriterien sind. Mit anderen Worten basiert die Prädiktorauswahl auf der Theorie.
Statistische Bedeutungslosigkeit bei der linearen Regression kann zwei Dinge bedeuten (von denen ich weiß):
Ein gültiger Grund zum Ausschließen unbedeutender Prädiktoren besteht darin, dass Sie nach der kleinsten Teilmenge von Prädiktoren suchen, die die Kriterienvarianz oder den größten Teil davon erklären. Wenn Sie es gefunden haben, überprüfen Sie Ihre Theorie.
In der Ökonometrie geschieht dies links und rechts. Wenn Sie beispielsweise die vierteljährlichen Saisonalitäts-Dummys Q2, Q3 und Q4 verwenden, kommt es häufig vor, dass sie als Gruppe von Bedeutung sind, aber einige von ihnen sind für sich genommen nicht von Bedeutung. In diesem Fall behalten Sie normalerweise alle.
UPDATE: Ein weiteres häufiges Beispiel ist die Prognose. Ökonometrie wird in der Regel aus der Inferenzperspektive in den Wirtschaftsabteilungen gelehrt. In der Inferenzperspektive wird viel Wert auf p-Werte und Signifikanz gelegt, weil Sie versuchen zu verstehen, was was verursacht und so weiter. Bei der Prognose wird nicht viel Wert darauf gelegt, da es Ihnen nur darum geht, wie gut das Modell die interessierende Variable prognostizieren kann.
Dies ist vergleichbar mit Anwendungen für maschinelles Lernen, die in letzter Zeit den Weg in die Wirtschaft gefunden haben. Sie können ein Modell mit allen signifikanten Variablen haben, die nicht gut prognostiziert werden. In der ML wird es oft mit der sogenannten "Überanpassung" in Verbindung gebracht. Offensichtlich wird ein solches Modell für Prognosen nur sehr wenig verwendet.
Sie stellen zwei verschiedene Fragen:
Bearbeiten: Dies galt für den ursprünglichen Beitrag, ist jedoch nach den Änderungen möglicherweise nicht mehr gültig.
In Bezug auf Q1 denke ich, dass es an der Grenze zu weit ist. Es gibt viele mögliche Antworten, von denen einige bereits bereitgestellt wurden. Ein weiteres Beispiel ist die Erstellung von Vorhersagemodellen (eine Erklärung finden Sie in der unten angegebenen Quelle).
In Bezug auf Q2 ist die statistische Signifikanz kein solides Kriterium für die Modellbildung. Rob J. Hyndman schreibt in seinem Blog-Beitrag "Statistische Tests zur Variablenauswahl" Folgendes :
Die statistische Signifikanz ist normalerweise keine gute Grundlage für die Bestimmung, ob eine Variable in ein Modell aufgenommen werden soll, obwohl viele Personen, die es besser wissen sollten, sie genau zu diesem Zweck verwenden. <...> Mit statistischen Tests sollten Hypothesen überprüft und keine Variablen ausgewählt werden.
Beachten Sie auch, dass Sie häufig einige Variablen finden, die rein zufällig statistisch signifikant sind (die Wahrscheinlichkeit wird durch Ihre Wahl des Signifikanzniveaus gesteuert). Die Beobachtung, dass eine Variable statistisch signifikant ist, reicht nicht aus, um zu schließen, dass die Variable in das Modell gehört.
Ich werde ein weiteres "Ja" hinzufügen. Mir wurde immer beigebracht - und ich habe versucht, es weiterzugeben -, dass die wichtigste Überlegung bei der Wahl der Kovariate das Domänenwissen und nicht die Statistik ist. Wenn ich zum Beispiel in der Biostatistik ein gesundheitliches Ergebnis an Einzelpersonen modelliere, dann brauche ich , egal was die Regression sagt, einige verdammt gute Argumente, um Alter, Rasse und Geschlecht nicht in das Modell aufzunehmen.
Dies hängt auch vom Verwendungszweck Ihres Modells ab. Wenn der Zweck darin besteht, ein besseres Verständnis für die Faktoren zu erlangen, die mit Ihrem Ergebnis am meisten zusammenhängen, hat das Erstellen eines sparsamen Modells einige Vorteile. Wenn Sie sich für Vorhersage und weniger für Verständnis interessieren, kann die Beseitigung von Kovariaten ein geringeres Problem darstellen.
(Wenn Sie Statistiken für die Variablenauswahl verwenden möchten, lesen Sie abschließend, was Frank Harrell zu diesem Thema zu sagen hat. Http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ und sein Buch Regression Modellierung Strategien . kurz gesagt, durch die Zeit , die Sie verwenden schrittweise haben oder ähnliche statistisch fundierte Strategien für die besten Prädiktoren auswählen und dann auf allen Tests „? sind diese guten Prädiktoren“ sind schrecklich voreingenommen - der natürlich sie‘ Da Sie gute Prädiktoren ausgewählt haben, sind die p-Werte für diese Prädiktoren fälschlicherweise niedrig.)
Das einzige, was das Ergebnis der "statistischen Bedeutungslosigkeit" wirklich besagt, ist, dass wir auf der ausgewählten Stufe des Fehlers vom Typ I nicht einmal sagen können, ob die Auswirkung des Regressors auf die abhängige Variable positiv oder negativ ist (siehe diesen Beitrag).
Wenn wir diesen Regressor beibehalten, verfügt jede Diskussion über seine eigene Auswirkung auf die abhängige Variable nicht über statistische Beweise, um sie zu sichern.
Dieser Schätzfehler besagt jedoch nicht, dass der Regressor nicht zur strukturellen Beziehung gehört, sondern nur, dass wir mit dem spezifischen Datensatz das Vorzeichen seines Koeffizienten nicht mit einiger Sicherheit bestimmen konnten.
Wenn es also theoretische Argumente gibt, die seine Anwesenheit stützen, sollte der Regressor im Prinzip beibehalten werden.
Andere Antworten hier lieferten spezifische Modelle / Situationen, für die solche Regressoren in der Spezifikation enthalten sind, beispielsweise die Antwort, in der das Datenmodell des Festeffekt-Panels erwähnt wird.
Sie können eine Variable von besonderem Interesse einbeziehen, wenn sie im Mittelpunkt der Forschung steht, auch wenn sie statistisch nicht signifikant ist. In der Biostatistik unterscheidet sich die klinische Signifikanz häufig von der statistischen Signifikanz.