Wie funktioniert die Imputationsfunktion der Mäuse?


9

Ich habe mich gefragt, ob jemand Erfahrung mit der Mäusefunktion hat, wie in Mäusen beschrieben: Multivariate Imputation durch verkettete Gleichungen in R (JSS 2011 45 (3))? Ich habe einen Datensatz mit einer Reihe von Variablen, von denen jede einen unterschiedlichen Grad an fehlenden Daten aufweist.

Meine Hauptfrage lautet: Angenommen, ich verwende die Bayes'sche lineare Regression, um fehlende Daten zu unterstellen. Verwendet ich miceautomatisch Prädiktorvariablen von höchstwertig bis niedrigstwertig, um sie zu unterstellen? Ist es auch üblich, alle unterstellten Datensätze zu mitteln?


Hallo zusammen. Weiter dazu: Seitdem konnte ich die Mäusefunktion erfolgreich nutzen. Ich habe noch eine Frage. Angenommen, die Funktion erstellt 5 vollständige Datensätze (X1, X2 ... X5). Ich wende die Funktion (x) auf jeden Datensatz an und sie gibt Y1, Y2 ... Y5 zurück. Glaubst du, es wäre in Ordnung, Ymax den Bereich Ymin zu melden? Oder vielleicht der Durchschnitt von Y1 bis Y5? Hat jemand irgendwelche Gedanken dazu? Vielen Dank.
mjburns

Antworten:


8

Standardmäßig verwenden Mäuse alle Variablen in Ihrem Datensatz, um andere vorherzusagen.

Für die Mittelwertbildung müssen Sie dies nach der Berechnung Ihrer Statistiken tun, nicht vorher. Wenn Sie beispielsweise eine lineare Regression durchführen möchten, gehen Sie wie folgt vor:

library(mice)
mi <- mice(dataset)
mi.reg <- with(data=mi,exp=glm(y~x+z))
mi.reg.pool <- pool(mi.reg)
summary(mi.reg.pool)

Die Zusammenfassungsfunktion zeigt Ihnen die gemittelten Koeffizienten.


Danke dafür - sagen Sie, dass ich erst dann einen Durchschnitt bilden sollte, wenn ich überprüft habe, ob die Statistiken "OK" sind? Außerdem enthält mein Datensatz 6 Variablen. Wie analysiere ich die Statistiken mithilfe der linearen Regression? Muss ich jede Variable einzeln prüfen? Zum Beispiel lm (x1 ~ x2 + x3 + x4 + x5 ....)
mjburns

Sie müssen sich auf die Überprüfung von Annahmen beziehen? Am wichtigsten sind die Residuen Ihres Modells (einschließlich aller Prädiktoren). Ich würde mich wahrscheinlich an die vollständige Fallanalyse halten (vor der Mehrfachzuschreibung), aber Sie möchten vielleicht einen erfahrenen Statistiker um Rat fragen (was ich nicht bin).
Dominic Comtois

1
@mjburns: Im Beispiel von dominic999 werden die Koeffizienten gemittelt, die sich aus der Anpassung desselben linearen Modells an jede der mehreren Versionen des mehrfach unterstellten Datensatzes ergeben. Ich halte es nicht für sinnvoll, die Datensätze selbst zu mitteln, da Sie die (hoffentlich gerechtfertigte und realistische) Variabilität verlieren würden, die die Mehrfachzuschreibung bietet. Die zusammenfassenden Statistiken für die gepoolten (gemittelten) Ergebnisse sind ähnlich wie für ein reguläres lineares Modell (zumindest in Bezug auf die Koeffizienten selbst), bei dem Sie das Pr (> | t |) für die Signifikanz der einzelnen Ergebnisse betrachten müssen.
Wayne

Bitte erwägen Sie, die Antwort abzustimmen / zu akzeptieren, wenn sie Ihrem Zweck gut dient.
Dominic Comtois

Danke dominic999 und Wayne. Ich verstehe jetzt viel mehr, was passiert, nachdem ich Ihren Hinweisen gefolgt und mehr mit den Daten gespielt habe.
mjburns
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.