Sie haben den gepoolten Schätzer korrekt notiert:
U.¯= 1m∑i = 1mU.ich
U.ichichU.ichU.ichse ( U.ich)
Rubins Regeln verwenden das Gesetz der Gesamtvarianz , um die Varianz als die Summe einer zwischen und innerhalb der Imputationsvarianz aufzuschreiben:
var ( U.¯) = E.[ var ( U.¯| U.ich) ] + var ( E.[U.¯|U.ich] )
E.[ var (U.¯|U.ich) = 1m∑mi = 1V.ichV.ichichvar ( E.[ U.¯| U.ich] ) = M.+ 1M.- 1∑mi = 1( U.ich- U.¯)2
Da die empfohlene Anzahl von Imputationen gering ist (Rubin schlägt nur 5 vor), ist es normalerweise möglich, diese Anzahl durch manuelles Anpassen jeder Analyse zu berechnen. Ein Beispiel von Hand ist unten aufgeführt:
require(mice)
set.seed(123)
nhimp <- mice(nhanes)
sapply(1:5, function(i) {
fit <- lm(chl ~ bmi, data=complete(nhimp, i))
print(c('coef'=coef(fit)[2], 'var'=vcov(fit)[2, 2]))
})
Gibt die folgende Ausgabe:
coef.bmi var
2.123417 4.542842
3.295818 3.801829
2.866338 3.034773
1.994418 4.124130
3.153911 3.531536
Die innere Varianz ist also der Durchschnitt der imputationsspezifischen Punktschätzungsvarianzen: 3,8 (Durchschnitt der zweiten Spalte). Die Zwischenvarianz beträgt 0,35 Varianz der ersten Spalte. Mit der DF-Korrektur erhalten wir die Varianz 4.23. Dies stimmt mit dem pool
im mice
Paket angegebenen Befehl überein .
> fit <- with(data=nhimp,exp=lm(chl~bmi))
> summary(pool(fit))
est se t df Pr(>|t|) lo 95 hi 95 nmis fmi lambda
(Intercept) 119.03466 54.716451 2.175482 19.12944 0.04233303 4.564233 233.505080 NA 0.1580941 0.07444487
bmi 2.68678 2.057294 1.305978 18.21792 0.20781073 -1.631731 7.005291 9 0.1853028 0.10051760
Dies zeigt die SE = 2,057 für den Modellkoeffizienten (Varianz = SE ** 2 = 4,23).
Ich kann nicht erkennen, wie die Erhöhung der Anzahl der unterstellten Datensätze zu einem bestimmten Problem führt. Wenn Sie kein Beispiel für den Fehler angeben können, weiß ich nicht, wie ich hilfreicher sein kann. Die Kombination von Hand ist jedoch sicher für eine Vielzahl von Modellierungsstrategien geeignet.
In diesem Artikel werden andere Möglichkeiten erörtert, wie das Gesetz der Gesamtvarianz andere Schätzungen der Varianz der gepoolten Schätzung ableiten kann. Insbesondere weisen die Autoren (richtig) darauf hin, dass die notwendige Annahme für Rubins Regeln nicht die Normalität der Punktschätzungen ist, sondern etwas, das als Kongenialität bezeichnet wird. WRT-Normalität, die meisten Punktschätzungen, die aus Regressionsmodellen stammen, weisen unter dem zentralen Grenzwertsatz eine schnelle Konvergenz auf, und der Bootstrap kann Ihnen dies zeigen.