Als «multiple-imputation» getaggte Fragen

Multiple Imputation bezieht sich auf eine Reihe von stochastischen Imputationsroutinen, die darauf abzielen, die multivariaten Merkmale der Daten zu erhalten

5
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …

4
Multiple Imputation und Modellauswahl
Mehrere Anrechnungs ist recht einfach , wenn Sie eine haben a - priori - lineares Modell , dass Sie schätzen möchten. Die Dinge scheinen jedoch etwas kniffliger zu sein, wenn Sie tatsächlich ein Modell auswählen möchten (z. B. finden Sie die "beste" Menge von Prädiktorvariablen aus einer größeren Menge von …


2
Multiple Imputation für Ergebnisvariablen
Ich habe einen Datensatz über landwirtschaftliche Versuche. Meine Antwortvariable ist ein Antwortverhältnis: log (Behandlung / Kontrolle). Ich bin daran interessiert, was den Unterschied ausmacht, und führe daher RE-Meta-Regressionen durch (ungewichtet, da ziemlich klar ist, dass die Effektgröße nicht mit der Varianz der Schätzungen korreliert). Jede Studie gibt den Getreideertrag, den …

1
Pooling von Kalibrierungsplots nach mehrfacher Imputation
Ich möchte Ratschläge zum Zusammenfassen der Kalibrierungsdiagramme / -statistiken nach mehrfacher Imputation. Bei der Entwicklung statistischer Modelle zur Vorhersage eines zukünftigen Ereignisses (z. B. Verwendung von Daten aus Krankenhausakten zur Vorhersage des Überlebens oder von Ereignissen nach der Entlassung aus dem Krankenhaus) kann man sich vorstellen, dass einige zu viele …

2
Verwenden von Nachbarinformationen bei der Eingabe von Daten oder Finden von Off-Daten (in R)
Ich habe einen Datensatz mit der Annahme, dass die nächsten Nachbarn die besten Prädiktoren sind. Nur ein perfektes Beispiel für einen Zwei-Wege-Gradienten, der Angenommen, wir haben einen Fall, in dem nur wenige Werte fehlen, und wir können dies auf der Grundlage von Nachbarn und Trends leicht vorhersagen. Entsprechende Datenmatrix in …

5
Mehrfachzuschreibung für fehlende Werte
Ich möchte die Imputation verwenden, um fehlende Werte in meinem Datensatz unter bestimmten Bedingungen zu ersetzen. Zum Beispiel möchte ich, dass die unterstellte Variable x1größer oder gleich der Summe meiner beiden anderen Variablen ist, sagen wir x2und x3. Ich möchte x3auch von entweder 0oder unterstellt werden, >= 14und ich möchte …

5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Wie kann ich Bootstrap-p-Werte über mehrfach kalkulierte Datensätze zusammenfassen?
Ich befasse mich mit dem Problem, dass ich den p-Wert für eine Schätzung von aus multipliziert unterstellten (MI) Daten bootstrappen möchte , aber mir unklar ist, wie ich die p-Werte über MI-Mengen kombinieren soll.θθ\theta Für MI-Datensätze verwendet der Standardansatz zur Ermittlung der Gesamtvarianz von Schätzungen Rubins Regeln. Sehen Sie hier …

2
Wie werden gepoolte p-Werte für Tests in mehreren unterstellten Datensätzen ermittelt?
Mit Amelia in R erhielt ich mehrere unterstellte Datensätze. Danach führte ich einen Test mit wiederholten Messungen in SPSS durch. Jetzt möchte ich die Testergebnisse bündeln. Ich weiß, dass ich Rubins Regeln (implementiert durch ein beliebiges Paket mit mehreren Imputationen in R) verwenden kann, um Mittelwerte und Standardfehler zu bündeln, …

1
Fehler "Der führende Minderjährige der Ordnung 1 ist nicht positiv definitiv" unter Verwendung von 2l.norm bei Mäusen
Ich habe ein Problem mit der 2l.normMethode der mehrstufigen Imputation in mice. Leider kann ich aufgrund der Größe meiner Daten kein reproduzierbares Beispiel veröffentlichen. Wenn ich die Größe reduziere, verschwindet das Problem. miceErzeugt für eine bestimmte Variable die folgenden Fehler und Warnungen: Error in chol.default(inv.sigma2[class] * X.SS[[class]] + inv.psi) : …

2
Sollte ich in einer Längsschnittstudie das zum Zeitpunkt 2 gemessene Ergebnis Y für Personen unterstellen, die für die Nachsorge verloren gegangen sind?
Ich habe zu zwei Zeitpunkten Wiederholungsmessungen in einer Stichprobe von Personen. Zum Zeitpunkt 1 sind 18.000 Personen und zum Zeitpunkt 2 13.000 Personen (5000 durch Nachverfolgung verloren). Ich möchte ein zum Zeitpunkt 2 gemessenes Ergebnis Y (und das Ergebnis kann zum Zeitpunkt 1 nicht gemessen werden) auf einen zum Zeitpunkt …

2
lmer mit mehrfach unterstellten Daten
Wie kann ich nach mehrfacher Imputation gepoolte Zufallseffekte für lmer erhalten? Ich benutze Mäuse, um einen Datenrahmen mehrfach zu unterstellen. Und lme4 für ein gemischtes Modell mit zufälligem Achsenabschnitt und zufälliger Steigung. Das Pooling von lmer ist in Ordnung, außer dass die zufälligen Effekte nicht gepoolt werden. Ich habe viel …

2
So verbessern Sie die Laufzeit für die R MICE-Datenimputation
Meine Frage kurz: Gibt es Methoden zur Verbesserung der Laufzeit von R MICE (Datenimputation)? Ich arbeite mit einem Datensatz (30 Variablen, 1,3 Millionen Zeilen), der (ziemlich zufällig) fehlende Daten enthält. Etwa 8% der Beobachtungen in etwa 15 von 30 Variablen enthalten NAs. Um die fehlenden Daten zu unterstellen, führe ich …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.