Multiple Imputation bezieht sich auf eine Reihe von stochastischen Imputationsroutinen, die darauf abzielen, die multivariaten Merkmale der Daten zu erhalten
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …
Mehrere Anrechnungs ist recht einfach , wenn Sie eine haben a - priori - lineares Modell , dass Sie schätzen möchten. Die Dinge scheinen jedoch etwas kniffliger zu sein, wenn Sie tatsächlich ein Modell auswählen möchten (z. B. finden Sie die "beste" Menge von Prädiktorvariablen aus einer größeren Menge von …
Ich habe einen Datensatz mit N ~ 5000 und ungefähr 1/2, der auf mindestens einer wichtigen Variablen fehlt. Die Hauptanalysemethode sind Cox-proportionale Gefahren. Ich plane mehrere Anrechnungen. Ich werde mich auch in einen Zug und ein Test-Set aufteilen. Sollte ich die Daten aufteilen und dann separat unterstellen oder unterstellen und …
Ich habe einen Datensatz über landwirtschaftliche Versuche. Meine Antwortvariable ist ein Antwortverhältnis: log (Behandlung / Kontrolle). Ich bin daran interessiert, was den Unterschied ausmacht, und führe daher RE-Meta-Regressionen durch (ungewichtet, da ziemlich klar ist, dass die Effektgröße nicht mit der Varianz der Schätzungen korreliert). Jede Studie gibt den Getreideertrag, den …
Ich möchte Ratschläge zum Zusammenfassen der Kalibrierungsdiagramme / -statistiken nach mehrfacher Imputation. Bei der Entwicklung statistischer Modelle zur Vorhersage eines zukünftigen Ereignisses (z. B. Verwendung von Daten aus Krankenhausakten zur Vorhersage des Überlebens oder von Ereignissen nach der Entlassung aus dem Krankenhaus) kann man sich vorstellen, dass einige zu viele …
Ich habe einen Datensatz mit der Annahme, dass die nächsten Nachbarn die besten Prädiktoren sind. Nur ein perfektes Beispiel für einen Zwei-Wege-Gradienten, der Angenommen, wir haben einen Fall, in dem nur wenige Werte fehlen, und wir können dies auf der Grundlage von Nachbarn und Trends leicht vorhersagen. Entsprechende Datenmatrix in …
Ich möchte die Imputation verwenden, um fehlende Werte in meinem Datensatz unter bestimmten Bedingungen zu ersetzen. Zum Beispiel möchte ich, dass die unterstellte Variable x1größer oder gleich der Summe meiner beiden anderen Variablen ist, sagen wir x2und x3. Ich möchte x3auch von entweder 0oder unterstellt werden, >= 14und ich möchte …
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
Ich befasse mich mit dem Problem, dass ich den p-Wert für eine Schätzung von aus multipliziert unterstellten (MI) Daten bootstrappen möchte , aber mir unklar ist, wie ich die p-Werte über MI-Mengen kombinieren soll.θθ\theta Für MI-Datensätze verwendet der Standardansatz zur Ermittlung der Gesamtvarianz von Schätzungen Rubins Regeln. Sehen Sie hier …
Mit Amelia in R erhielt ich mehrere unterstellte Datensätze. Danach führte ich einen Test mit wiederholten Messungen in SPSS durch. Jetzt möchte ich die Testergebnisse bündeln. Ich weiß, dass ich Rubins Regeln (implementiert durch ein beliebiges Paket mit mehreren Imputationen in R) verwenden kann, um Mittelwerte und Standardfehler zu bündeln, …
Ich habe ein Problem mit der 2l.normMethode der mehrstufigen Imputation in mice. Leider kann ich aufgrund der Größe meiner Daten kein reproduzierbares Beispiel veröffentlichen. Wenn ich die Größe reduziere, verschwindet das Problem. miceErzeugt für eine bestimmte Variable die folgenden Fehler und Warnungen: Error in chol.default(inv.sigma2[class] * X.SS[[class]] + inv.psi) : …
Ich habe zu zwei Zeitpunkten Wiederholungsmessungen in einer Stichprobe von Personen. Zum Zeitpunkt 1 sind 18.000 Personen und zum Zeitpunkt 2 13.000 Personen (5000 durch Nachverfolgung verloren). Ich möchte ein zum Zeitpunkt 2 gemessenes Ergebnis Y (und das Ergebnis kann zum Zeitpunkt 1 nicht gemessen werden) auf einen zum Zeitpunkt …
Wie kann ich nach mehrfacher Imputation gepoolte Zufallseffekte für lmer erhalten? Ich benutze Mäuse, um einen Datenrahmen mehrfach zu unterstellen. Und lme4 für ein gemischtes Modell mit zufälligem Achsenabschnitt und zufälliger Steigung. Das Pooling von lmer ist in Ordnung, außer dass die zufälligen Effekte nicht gepoolt werden. Ich habe viel …
Meine Frage kurz: Gibt es Methoden zur Verbesserung der Laufzeit von R MICE (Datenimputation)? Ich arbeite mit einem Datensatz (30 Variablen, 1,3 Millionen Zeilen), der (ziemlich zufällig) fehlende Daten enthält. Etwa 8% der Beobachtungen in etwa 15 von 30 Variablen enthalten NAs. Um die fehlenden Daten zu unterstellen, führe ich …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.