Testen der Gleichheit von Koeffizienten aus zwei verschiedenen Regressionen

Dies scheint ein grundlegendes Problem zu sein, aber ich habe gerade festgestellt, dass ich eigentlich nicht weiß, wie man die Gleichheit von Koeffizienten aus zwei verschiedenen Regressionen testet. Kann jemand etwas Licht ins Dunkel bringen?

Nehmen wir formal an, ich habe die folgenden zwei Regressionen ausgeführt: und wobei sich auf die Entwurfsmatrix der Regression und auf den Vektor der Koeffizienten in der Regression bezieht . Beachten Sie, dass und möglicherweise sehr unterschiedlich sind, unterschiedliche Dimensionen usw. Ich bin beispielsweise daran interessiert, ob .

y_{1} = X_{1} β_{1} + ϵ_{1}

$y_1 = X_1\beta_1 + \epsilon_1$

y_{2} = X_{2} β_{2} + ϵ_{2}

$y_2 = X_2\beta_2 + \epsilon_2$

X_{i}

$X_i$

i

$i$

β_{i}

$\beta_i$

i

$i$

X_{1}

$X_1$

X_{2}

$X_2$

{\hat{β}}_{11} \neq {\hat{β}}_{21}

$\hat\beta_{11} \neq \hat\beta_{21}$

Wenn diese aus derselben Regression stammen würden, wäre dies trivial. Aber da sie von verschiedenen stammen, bin ich mir nicht ganz sicher, wie ich das machen soll. Hat jemand eine Idee oder kann mir ein paar Hinweise geben?

Mein Problem im Detail: Meine erste Intuition war es, die Konfidenzintervalle zu betrachten, und wenn sie sich überschneiden, würde ich sagen, dass sie im Wesentlichen gleich sind. Diese Prozedur hat jedoch nicht die richtige Größe des Tests (dh jedes einzelne Konfidenzintervall hat beispielsweise , aber eine gemeinsame Betrachtung hat nicht die gleiche Wahrscheinlichkeit). Meine "zweite" Intuition war es, einen normalen T-Test durchzuführen. Das heißt, nimm $\alpha=0.05$

\frac{β_{11} - β_{21}}{s d (β_{11})}

$\frac{\beta_{11}-\beta_{21}}{sd(\beta_{11})}$

Dabei wird als Wert meiner Nullhypothese verwendet. Dies berücksichtigt jedoch nicht die Schätzungsunsicherheit von , und die Antwort kann von der Reihenfolge der Regressionen abhängen (die ich als 1 und 2 bezeichne). $\beta_{21}$ $\beta_{21}$

Meine dritte Idee war, dies wie in einem Standardtest für die Gleichheit zweier Koeffizienten aus derselben Regression zu tun,

\frac{β_{11} - β_{21}}{s d (β_{11} - β_{21})}

$\frac{\beta_{11}-\beta_{21}}{sd(\beta_{11}-\beta_{21})}$

Die Komplikation ergibt sich aus der Tatsache, dass beide aus unterschiedlichen Regressionen stammen. Beachten Sie, dass

V a r (β_{11} - β_{21}) = V a r (β_{11}) + V a r (β_{21}) - 2 C o v (β_{11}, β_{21})

$Var(\beta_{11}-\beta_{21}) = Var(\beta_{11}) + Var(\beta_{21}) -2 Cov(\beta_{11},\beta_{21})$ aber seitdem Sie stammen aus verschiedenen Regressionen. Wie würde ich ?

C o v (β_{11}, β_{21})

$Cov(\beta_{11},\beta_{21})$

Dies veranlasste mich, diese Frage hier zu stellen. Dies muss eine Standardprozedur / ein Standardtest sein, aber ich konnte nichts finden, das diesem Problem ausreichend ähnlich war. Wenn mich also jemand auf das richtige Verfahren hinweisen kann, wäre ich sehr dankbar!

hypothesis-testing inference

— coffeinjunky
quelle

Dies scheint mit der Modellierung struktureller / simultaner Gleichungen zu zusammenhängen. Eine Möglichkeit, dieses Problem zu lösen, besteht darin, beide Gleichungen gleichzeitig anzupassen, z. B. mit maximaler Wahrscheinlichkeit, und dann einen Wahrscheinlichkeitsquotiententest eines beschränkten Modells (Modell mit gleichen Parametern) mit einem nicht beschränkten Modell zu vergleichen. Praktisch ist dies mit der SEM-Software (Mplus, Lavaan usw.) möglich

— tomka

Kennen Sie die scheinbar unabhängige Regression (SUR)?

— Dimitriy V. Masterov

Ich denke, die Frage, die Sie stellen, dh wie Sie die cov beider Koeffizienten erhalten, wird durch SEM gelöst, wodurch Sie die var-cov-Matrix aller Koeffizienten erhalten. Dann könnten Sie möglicherweise einen Wald-Test in der von Ihnen vorgeschlagenen Weise anstelle eines LRT-Tests verwenden. Darüber hinaus können Sie auch Resampling / Bootstrap verwenden, was möglicherweise direkter ist.

— Tomka

Ja, da hast du recht, @tomka. In einem SUR-Modell (das Sie grob gesagt als Sonderfall von SEM-Modellen bezeichnen können) kann ich den entsprechenden Test erhalten. Danke, dass du mich in diese Richtung gelenkt hast! Ich glaube, ich habe nicht darüber nachgedacht, weil es ein bisschen so aussieht, als würde man einen Spatz mit einer Kanone erschießen, aber ich kann mir keinen besseren Weg vorstellen. Wenn Sie eine Antwort schreiben, werde ich sie als richtig markieren. Ansonsten werde ich es bald selbst mit einer kurzen theoretischen Erklärung und möglicherweise mit einem Beispiel aufschreiben.

— Coffeinjunky

SUR ist ziemlich einfach zu implementieren. Hier ist ein Beispiel mit Stata . Mit R möchten Sie systemfit .

— Dimitriy V. Masterov

Antworten:

Obwohl dies keine übliche Analyse ist, ist sie wirklich von Interesse. Die akzeptierte Antwort entspricht der Art und Weise, wie Sie Ihre Frage gestellt haben, aber ich werde eine andere einigermaßen akzeptierte Technik bereitstellen, die möglicherweise gleichwertig ist oder nicht (ich überlasse es besseren Köpfen, dies zu kommentieren).

Bei diesem Ansatz wird der folgende Z-Test verwendet:

$Z = \frac{\beta_1-\beta_2}{\sqrt{(SE\beta_1)^2+(SE\beta_2)^2}}$

Wobei der Standardfehler von . $SE\beta$ $\beta$

$\beta$ $b$ $\beta$

— russellpierce
quelle

Siehe auch: stats.stackexchange.com/questions/55501/…

— russellpierce

β_{1}

$\beta_1$

β_{2}

$\beta_2$

Z = \frac{A β_{1} - B β_{2}}{\sqrt{(SE A β_{1})^{2} + (SE B β_{2})^{2}}}

$Z=\frac{A\beta_1-B\beta_2}{\sqrt{(\text{SE}A\beta_1)^2+(\text{SE}B\beta_2)^2}}$

Außerdem stelle ich fest, dass das Papier den Fall behandelt, in dem ein Modell in das andere geschachtelt ist und die DVs von zwei Modellen gleich sind. Was ist, wenn diese beiden Bedingungen nicht erfüllt sind? Stattdessen habe ich Design-Matrizen der beiden Modelle gleich, aber sie haben unterschiedliche DVs. Gilt diese Formel noch? Danke vielmals!

— Sibbs Gambling

@SibbsGambling: Vielleicht möchten Sie dies zu einer eigenständigen Frage machen, um mehr Aufmerksamkeit zu erregen.

— Russellpierce

β_{1}

$\beta_1$

β_{2}

$\beta_2$

Lassen Sie mich für Personen mit ähnlichen Fragen einen einfachen Überblick über die Antwort geben.

$y_1$ $y_2$

$\left(\array{y_1 \\ y_2}\right) = \left(\array{X_1 \ \ 0 \\ 0 \ \ X_2}\right)\left(\array{\beta_1 \\ \beta_2 }\right) + \left(\array{e_1 \\ e_2 }\right)$

Dies führt zu einer Varianz-Kovarianz-Matrix, mit der die Gleichheit der beiden Koeffizienten geprüft werden kann.

— coffeinjunky
quelle

Ich habe die von Ihnen vorgeschlagene Methode implementiert und mit der obigen Methode verglichen. Ich fand den Hauptunterschied darin, ob die Annahme, dass die Fehlervarianz gleich ist oder nicht. Ihr Weg geht davon aus, dass die Fehlervarianz gleich ist und der Weg darüber nicht davon ausgeht.

— KH Kim

Das hat bei mir gut funktioniert. In Stata habe ich Folgendes getan: Die expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id); Verwendung von gruppierten Standardfehlern erklärt, dass e1 und e2 nach dem Stapeln des Datensatzes nicht für dieselbe Beobachtung unabhängig sind.

— wkschwartz

$Var(\beta_1-\beta2)=Var(\beta_1)+Var(\beta_2)$
$covar(\beta_1,\beta_2) \neq 0$
(Clogg, CC, Petkova, E. & Haritou, A. (1995). Statistische Methoden zum Vergleichen von Regressionskoeffizienten zwischen Modellen. American Journal of Sociology, 100 (5), 1261-1293.) Gibt eine Antwort in dem speziellen Fall von verschachtelten Gleichungen (dh, um die zweite Gleichung zu erhalten, betrachten Sie die erste Gleichung und fügen Sie ein paar erklärende Variablen hinzu) Sie sagen, es ist einfach zu implementieren.
Wenn ich es gut verstehe, kann in diesem speziellen Fall auch ein Haussman-Test implementiert werden. Der Hauptunterschied besteht darin, dass ihr Test die zweite (vollständige) Gleichung als wahr ansieht, während der Haussman-Test die erste Gleichung als wahr ansieht.
Es ist zu beachten, dass Clogg et al. (1995) nicht für Paneldaten geeignet ist. Ihr Test wurde jedoch von (Yan, J., Aseltine Jr, RH, & Harel, O. (2013)) verallgemeinert. Vergleichen von Regressionskoeffizienten zwischen verschachtelten linearen Modellen für gruppierte Daten mit verallgemeinerten Schätzgleichungen. Journal of Educational and Behavioral Statistics, 38 (2), 172-189.) Mit einem Paket in R: geepack Siehe: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1

Und (für das R-Paket): https://cran.r-project.org/web/packages/geepack/index.html

— Alexandre Cazenave-Lacroutz
quelle