Wenn Sie eine OLS-Regression für Querschnittsdaten ausführen, sollten Sie die Autokorrelation in Residuen testen?

Ich habe eine Reihe von Beobachtungen, unabhängig von der Zeit. Ich frage mich, ob ich Autokorrelationstests durchführen soll. Es scheint mir, dass es keinen Sinn macht, da meine Daten keine Zeitkomponente enthalten. Ich habe jedoch tatsächlich einen seriellen Korrelations-LM-Test versucht, der auf eine starke Autokorrelation der Residuen hinweist. Macht es irgendeinen Sinn? Ich denke, dass ich Beobachtungen in meinem Datensatz in beliebiger Reihenfolge neu anordnen kann, was die Autokorrelation in Residuen ändern würde. Die Frage ist also - sollte ich mich in diesem Fall überhaupt um Autokorrelation kümmern? Und sollte ich Newey-West verwenden, um die SE anzupassen, falls der Test dies anzeigt? Vielen Dank!

— user28479
quelle

Sie haben richtig gesagt, dass Ihre Residuen ohne Zeitkomponente nicht seriell korreliert werden können. Ein Test auf serielle Korrelation ist in diesem Fall also nicht gültig. Die häufigsten Bedenken in Querschnittsdaten sind Heteroskedastizität oder räumliche Korrelation (z. B. die Kriminalitätsrate in Stadt A beeinflusst die Kriminalitätsrate in Stadt B), aber beide können mit den robusten und Cluster-Optionen in Stata leicht korrigiert werden.

— Andy

Versuchen wir, dies neu zu formulieren, ohne die Begriffe serielle Korrelation oder Autokorrelation zu verwenden. Die abhängige Variable eines Regressionsmodells hat eine bedingte Varianzmatrix, dh abhängig von den unabhängigen Variablen. Wir erwarten, dass die diagonalen Elemente der Matrix, dh die bedingten Varianzen der Elemente von y, ungleich Null sind. Wenn das Modell einen Querschnitt hat, können wir daraus schließen, dass die nicht diagonalen Elemente, dh die Kovarianzen von Elementpaaren von y, Null sein müssen? Sicherlich schließt das Fehlen einer Zeitreiheninterpretation diese Möglichkeit nicht aus, obwohl es sie weniger wahrscheinlich macht?

— Adam Bailey

... Ein Beispiel, wie Andy vorschlägt, wäre die Kovarianz zwischen räumlich verwandten Elementen. Ein mögliches nicht-räumliches Beispiel ist, wenn die abhängige Variable das BSP in verschiedenen Ländern (gleichzeitig) ist, wobei zwei weit voneinander entfernte Länder möglicherweise enge Handelsbeziehungen haben (z. B. aus historischen Gründen), was zu einer Kovarianz ungleich Null führt.

— Adam Bailey

Wenn Ihre Daten Cluster aufweisen, ist eine Querschnittsabhängigkeit möglich. Sie können die SE wie von @Andy vorgeschlagen anpassen. Eine Bemerkung zu Cluster-robuster SE ist, dass die robuste SE funktioniert, wenn jeder Cluster in Daten klein ist und viele Cluster beobachtet werden. Wenn Sie jedoch einige große Cluster haben, ist die robuste Cluster-SE nicht gültig. In der Tat könnte der gepoolte OLS im Fall eines großen Clusters inkonsistent sein. Sie können Andrews (2005, Econometrica) als Referenz verweisen.

— Semibruin

Die wahre Unterscheidung zwischen Daten besteht darin, ob es eine natürliche Reihenfolge von Daten gibt oder nicht, die realen Strukturen entspricht und für das jeweilige Problem relevant ist.

Die klarste (und unbestreitbarste) "natürliche Ordnung" ist natürlich die der Zeit und damit die übliche Zweiteilung "Querschnitts- / Zeitreihen". Aber wie in den Kommentaren ausgeführt, haben wir möglicherweise Nicht-Zeitreihendaten, die dennoch eine natürliche räumliche Ordnung besitzen. In einem solchen Fall gelten hier alle im Rahmen der Zeitreihenanalyse entwickelten Konzepte und Werkzeuge gleich gut, da Sie erkennen sollen, dass eine sinnvolle räumliche Ordnung existiert, und diese nicht nur bewahren, sondern auch untersuchen, was sie bedeuten kann Die Reihe des Fehlerterms bezog sich unter anderem auf das gesamte Modell (wie das Vorhandensein eines Trends, der beispielsweise die Daten instationär machen würde).

Nehmen Sie für ein (grobes) Beispiel an, dass Sie Daten über die Anzahl der Autos erfassen, die an einem bestimmten Tag in verschiedenen Zwischenstopps entlang einer Autobahn angehalten haben (dies ist die abhängige Variable). Ihre Regressoren messen die verschiedenen Einrichtungen / Dienstleistungen, die jeder Zwischenstopp anbietet, und möglicherweise auch andere Dinge wie die Entfernung zu Autobahnausfahrten / -eingängen. Diese Einrichtungen sind natürlich entlang der Autobahn bestellt ...

Aber ist das wichtig? Sollten wir die Reihenfolge beibehalten und uns sogar fragen, ob der Fehlerterm automatisch korreliert? Sicher : Nehmen Sie an, dass einige Einrichtungen / Dienste in Einrichtung Nr. 1 an diesem bestimmten Tag in Wirklichkeit nicht funktionsfähig sind (dieses Ereignis würde durch den Fehlerbegriff erfasst). Autos, die diese speziellen Einrichtungen / Dienste nutzen möchten, werden dennoch vorbeischauen, da sie das Problem nicht kennen. Aber sie werden sich über das Problem informieren und wegen des Problems auch in der nächsten Einrichtung, Nr. 2, anhalten , wo, wennWas sie wollen, ist das Angebot, sie erhalten die Dienstleistungen und sie werden nicht in Einrichtung Nr. 3 anhalten - aber es besteht die Möglichkeit, dass Einrichtung Nr. 2 teuer erscheint, und so werden sie schließlich auch Einrichtung Nr. 3 versuchen: Dies bedeutet, dass die abhängigen Variablen der drei Betriebe möglicherweise nicht unabhängig sind, was bedeutet, dass die Möglichkeit einer Korrelation der drei entsprechenden Fehlerterme besteht und nicht "gleich", sondern in Abhängigkeit von ihren jeweiligen Positionen.

Die räumliche Ordnung muss also erhalten bleiben, und es müssen Tests auf Autokorrelation durchgeführt werden - und sie sind sinnvoll.

Wenn andererseits für einen bestimmten Datensatz keine solche "natürliche" und aussagekräftige Reihenfolge vorhanden zu sein scheint, sollte die mögliche Korrelation zwischen Beobachtungen nicht als "Autokorrelation" bezeichnet werden, da dies irreführend wäre, und die speziell für die Bestellung entwickelten Werkzeuge Daten sind nicht anwendbar. Eine Korrelation kann jedoch sehr gut bestehen, obwohl es in einem solchen Fall schwieriger ist, sie zu erkennen und abzuschätzen.

— Alecos Papadopoulos
quelle