In der Elementarstatistik habe ich gelernt, dass mit einem allgemeinen linearen Modell Beobachtungen unabhängig sein müssen, damit Schlussfolgerungen gültig sind. Wenn Clustering auftritt, kann die Unabhängigkeit möglicherweise nicht länger aufrecht erhalten werden, was zu ungültigen Schlussfolgerungen führt, sofern dies nicht berücksichtigt wird. Eine Möglichkeit, eine solche Clusterbildung zu berücksichtigen, besteht in der Verwendung gemischter Modelle. Ich möchte einen simulierten oder nicht simulierten Beispieldatensatz finden, der dies klar demonstriert. Ich habe versucht, einen der Beispieldatensätze auf der UCLA-Site zum Analysieren von Clusterdaten zu verwenden
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Wenn ich nichts verpasse, sind diese Ergebnisse so ähnlich, dass ich nicht denke, dass die Ausgabe von lm()
ungültig ist. Ich habe mir einige andere Beispiele angesehen (z. B. 5.2 vom Bristol University Center für Multilevel-Modellierung ) und festgestellt, dass die Standardfehler auch nicht sehr unterschiedlich sind (ich bin nicht an den Zufallseffekten selbst aus dem gemischten Modell interessiert, aber es ist erwähnenswert, dass Der ICC aus der gemischten Modellausgabe beträgt 0,42.
Meine Fragen lauten also: 1) Unter welchen Bedingungen unterscheiden sich die Standardfehler beim Clustering erheblich, und 2) kann jemand ein Beispiel für einen solchen Datensatz liefern (simuliert oder nicht).