Regression über die gesamte Bevölkerung

Was bedeutet der Standardfehler eines Koeffizienten in einer Regression, wenn die gesamte Population einbezogen wird?

Diese Frage hat mich so verwirrt. Weil es mir so scheint, machen Standardfehler keinen Sinn, wenn die gesamte Population einbezogen wird - es besteht keine Notwendigkeit für statistische Inferenz, da Sie bereits die gesamte Population haben.

Aber es wird sogar von vielen Artikeln verwendet, die in Top-Journalen veröffentlicht wurden. Wenn ich zum Beispiel die Beziehung zwischen der BIP-Wachstumsrate eines Landes und seiner Bevölkerungsdichte untersuche, führe ich die Regression durch:

G D P_{i} = α + β P o p_{i} + γ X_{i} + ϵ_{i}

$GDP_i = \alpha + \beta Pop_i + \gamma \mathbf{X}_i + \epsilon_i$

mit allen 195 Ländern der Erde. In diesem Fall sind alle Länder (die Bevölkerung) enthalten. In der gesamten Literatur wird jedoch immer noch über die statistische Signifikanz der Koeffizienten gesprochen.

Könnte jemand erklären, ob es sich um einen Missbrauch statistischer Schlussfolgerungen handelt, wenn die gesamte Bevölkerung zurückgegangen ist?

econometrics regression

— Akira Osawa
quelle

Diese Frage wurde im Statistiknetzwerk beantwortet. Siehe hier . Grundsätzlich hat die Statistik keine Relevanz. Die "Regression" ist ein rein mathematisches Gerät.

— Luchonacho

@luchonacho Meine Meinung ist, dass diese Frage hier in Bezug auf den Inhalt thematisiert ist, den wir natürlich mit stats.SE überschneiden. Ich stimme jedoch zu, dass es sich im Wesentlichen um ein Duplikat handelt. Ich habe hier eine Diskussion darüber gefunden, was mit standortübergreifenden Duplikaten zu tun ist: meta.stackexchange.com/questions/172307/…

— jmbejara

@jmbejara Danke für den Hinweis. Gut zu wissen.

— Luchonacho

Dies scheint eine weitere relevante Referenz zu sein. Es wird eine verwandte Technik namens Randomisierungsinferenz diskutiert, wie sie in Athey Imbens (2017) diskutiert wird. jasonkerwin.com/nonparibus/2017/09/25/…

— jmbejara

Antworten:

Ich hatte diese Frage zunächst für Moderatoren markiert, um zu prüfen, ob es besser wäre, auf die Statistik-SE-Site Cross Validated zu migrieren. Da das OP jedoch ein sehr spezifisches ökonometrisches Beispiel eingeführt hat, glaube ich, dass das (sehr tiefe) Konzept der "Population / Stichprobe" für die Zwecke dieses Beispiels sinnvoll diskutiert werden kann.

Ein erstes Problem ist das, das in der Antwort von @AdamBailey erörtert wird: Wenn man "alle Länder der Welt" für ein bestimmtes Jahr oder Jahre betrachtet und die Daten als "Bevölkerung" kennzeichnet, sollte das nächste Jahr einer anderen Bevölkerung angehören. Wenn es zu einer anderen Population gehört, wie sollen wir dann die Ergebnisse einer Population verwenden, um Rückschlüsse auf eine andere Population zu ziehen? In der Tat ist unsere "Bevölkerung" hier zweidimensional , Land und Zeitraum - und in diesem Sinne haben wir bei offenem Zeithorizont nur eine Stichprobe in der Hand.

Das zweite Problem (teilweise impliziert in der Antwort von @luchonacho) ist das Folgende: Unsere Bevölkerung ist nicht die tatsächlich beobachtete Realisierung der Zufallsvariablen " . Dies sind die Daten. Unsere Bevölkerung ist die Sammlung von Zufallszahlen Variablen selbst, die Funktionen sind, keine Werte. $GDP_i, i=1,..n$

Unsere Daten sind also nur eine der möglichen kombinierten Realisierungen dieser Zufallsvariablen. Diese Erkenntnisse entstanden nicht nur aufgrund deterministischer / technischer Beziehungen / Kausalität (die sich in den Koeffizienten widerspiegeln), sondern auch unter dem Einfluss von inhärent zufälligen Faktoren. In diesem Sinne sind die Daten kein "reines / typisches" Bild der "Bevölkerung" - sie enthalten Rauschen, nicht strukturelle Störungen, einmalige Schocks usw.

Diese Unsicherheit überträgt sich dann auf die Schätzung der Koeffizienten, die wir zu schätzen versuchen, da wir davon ausgehen, dass diese Koeffizienten die Kausalität oder Ko-Bewegung vor den zufälligen Elementen beschreiben, die den Endwert der abhängigen Variablen beeinflussen.

Aufgrund der beiden oben genannten Aspekte ist es auch in diesem Fall völlig gültig, von "Standardfehler von Schätzungen" zu sprechen und dann wie gewohnt statistische Tests durchzuführen.

— Alecos Papadopoulos
quelle

Es ist wichtig zu überlegen, was genau die Bevölkerung ist, über die eine Schlussfolgerung gezogen wird. In diesem Zusammenhang ist der Zeitaspekt leicht zu übersehen.

Nehmen wir zum Beispiel an, dass das Ziel darin besteht, das BIP der nächsten zwei Jahre für jedes Land der Welt zu prognostizieren. Dann ist die interessierende Bevölkerung eine Reihe von Paaren der Form "Land, Jahr". Es sind nicht einfach "alle Länder", und selbst wenn ein Prognosemodell durch Regression der Daten der aktuellen und vergangenen Jahre für jedes Land geschätzt wurde, bedeutet dies nicht, dass die gesamte interessierende Bevölkerung einbezogen wurde.

Wenn man wirklich von einem vollständigen Datensatz für die gesamte interessierende Population ausgeht, kann man nur zusammenfassende Statistiken berechnen. Dies könnte Standardabweichungen beinhalten, aber es wäre unangemessen, diese Standardfehler zu nennen, da sich dieser Begriff auf eine Stichprobenverteilung bezieht, während die einzige "Stichprobe" in diesem Fall die gesamte Population ist.

— Adam Bailey
quelle

Vielen Dank. Um es klarer zu machen, habe ich die Frage aktualisiert: Werden in diesem Fall "alle Länder" als die gesamte Bevölkerung betrachtet? Wenn dies nicht der Fall ist, bedeutet dies, dass es sich um „Stichproben“ einer „Superpopulation“ handelt - vorausgesetzt, es gibt Millionen von Ländern im „Paralleluniversum“, und die 195 Länder der Erde sind unabhängig und identisch unter ihnen und verteilt werden zufällig ausgewählt. Ist es nicht eine zu weit hergeholte Annahme?

— Akira Osawa