Sollte ich für jede Community separate Regressionen ausführen oder kann die Community einfach eine Kontrollvariable in einem aggregierten Modell sein?


11

Ich verwende ein OLS-Modell mit einer kontinuierlichen Asset-Index-Variablen als DV. Meine Daten werden aus drei ähnlichen Communities in enger geografischer Nähe zueinander zusammengefasst. Trotzdem hielt ich es für wichtig, die Community als Kontrollvariable zu verwenden. Wie sich herausstellt, ist die Community bei 1% signifikant (t-Score von -4,52). Community ist eine nominelle / kategoriale Variable, die für 1 von 3 verschiedenen Communities als 1,2,3 codiert ist.

Meine Frage ist, ob dieses hohe Maß an Bedeutung bedeutet, dass ich Regressionen für die Gemeinschaften einzeln und nicht als Aggregation durchführen sollte. Andernfalls macht die Verwendung von Community als Kontrollvariable dies im Wesentlichen?


Wäre es sinnvoll, ein hierarchisches Modell mit Community als Zufallseffekt zu verwenden? Die Gemeinschaften sind nicht Ihr Hauptanliegen, oder? Durch die Verwendung eines hierarchischen Modells teilen Sie die Stärke.
Wayne

Antworten:


14

Die Frage schlägt einen Vergleich von drei verwandten Modellen vor. Um den Vergleich zu verdeutlichen, sei die abhängige Variable, sei X { 1 , 2 , 3 } der aktuelle Community-Code und definiere X 1 und X 2 als Indikatoren für Community 1 bzw. 2. (Dies bedeutet, dass X 1 = 1 für Community 1 und X 1 = 0 für Community 2 und 3; X 2 = 1 für Community 2 und X 2 = 0YX{1,2,3}X1X2X1=1X1=0X.2=1X.2=0 für die Gemeinden 1 und 3.)

Die aktuelle Analyse kann eine der folgenden sein: entweder

Y.=α+βX.+ε(erstes Modell)

oder

Y.=α+β1X.1+β2X.2+ε(zweites Modell).

In beiden Fällen repräsentiert epsi; eine Menge identisch verteilter unabhängiger Zufallsvariablen mit einer Erwartung von Null. Das zweite Modell ist wahrscheinlich das beabsichtigte, aber das erste Modell ist dasjenige, das mit der in der Frage beschriebenen Codierung übereinstimmt.ε

Die Ausgabe der OLS-Regression ist ein Satz angepasster Parameter (mit "Hüten" auf ihren Symbolen gekennzeichnet) zusammen mit einer Schätzung der gemeinsamen Varianz der Fehler. Im ersten Modell gibt es einen t-Test vergleichen β auf 0 . Im zweiten Modell gibt es zwei t-Tests: einen zum Vergleichen von ^ β 1 mit 0 und einen zum Vergleichen von ^ β 2 mit 0β^0β1^0β2^0 . Da die Frage nur einen T-Test enthält, untersuchen wir zunächst das erste Modell.

Nachdem festgestellt , dass β von signifikant verschieden 0 , können wir eine Schätzung machen Y = E [ α + β X + ε ] = α + β X für jede Gemeinschaft:β^0YE[α+βX+ε]α+βX

für Gemeinschaft 1 ist und die Schätzung ist gleich α + β ;X=1α+β

für Gemeinschaft 2 ist und die Schätzung ist gleich α + 2 β ; undX=2α+2β

für Gemeinschaft 3 ist und die Schätzung ist gleich α + 3 βX=3α+3β .

Im Speziellen, das erste Modell zwingt die Community-Effekte zu einem arithmetischen Verlauf. Wenn die Community-Codierung nur als willkürliche Methode zur Unterscheidung zwischen Communities gedacht ist, ist diese integrierte Einschränkung ebenso willkürlich und wahrscheinlich falsch.

Es ist lehrreich, dieselbe detaillierte Analyse der Vorhersagen des zweiten Modells durchzuführen:

Für die Gemeinschaft 1, in der und X 2 = 0 ist , ist der vorhergesagte Wert von Y gleich α + β 1 . Speziell,X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

For community 2, where X1=0 and X2=1, the predicted value of Y equals α+β2. Specifically,

Y(community 2)=α+β2+ε.

For community 3, where X1=X2=0, the predicted value of Y equals α. Specifically,

Y(community 3)=α+ε.

The three parameters effectively give the second model full freedom to estimate the three expected values of Y separately. The t-tests assess whether (1) β1=0; that is, whether there is a difference between communities 1 and 3; and (2) β2=0; that is, whether there is a difference between communities 2 and 3. In addition, one can test the "contrast" β2β1 with a t-test to see whether communities 2 and 1 differ: this works because their difference is (α+β2)(α+β1) = β2β1.

Now we can assess the effect of three separate regressions. They would be

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

Comparing this to the second model, we see that α1 should agree with α+β1, α2 should agree with α+β2, and α3 should agree with α. So, in terms of flexibility of fitting parameters, both models are equally good. However, the assumptions in this model about the error terms are weaker. All the ε1 must be independent and identically distributed (iid); all the ε2 must be iid, and all the ε3 must be iid, but nothing is assumed about statistical relations among the separate regressions. Separate regressions therefore allow for additional flexibility:

  • Most importantly, the distribution of the ε1 can differ from that of the ε2 which can differ from that of the ε3.

  • In some situations, the εi may be correlated with the εj. None of these models explicitly handles this, but the third model (separate regressions) at least won't be adversely affected by it.

This additional flexibility means that the t-test results for the parameters will likely differ between the second and third model. (It should not result in different parameter estimates, though.)

To see whether separate regressions are needed, do the following:

Fit the second model. Plot the residuals against community, for example as a set of side-by-side boxplots or a trio of histograms or even as three probability plots. Look for evidence of different distributional shapes and especially of appreciably different variances. If that evidence is absent, the second model should be ok. If it's present, separate regressions are warranted.

When the models are multivariate--that is, they include other factors--a similar analysis is possible, with similar (but more complicated) conclusions. In general, performing separate regressions is tantamount to including all possible two-way interactions with the community variable (coded as in the second model, not the first) and allowing for different error distributions for each community.


-3
  • model selection (IMHO)enter image description here may be recomended. Because complex models (Separate slope) will have the more stong penalty, thus more concise and easier interpretable models will be "better".

1
It's not entirely clear what you're recommending here, or how this table relates to it.
Scortchi - Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.