Als «data-imputation» getaggte Fragen

Bezieht sich auf eine allgemeine Klasse von Methoden, mit denen fehlende Daten "ausgefüllt" werden. Die dafür verwendeten Methoden beziehen sich normalerweise auf die Interpolation (http://en.wikipedia.org/wiki/Interpolation) und erfordern Annahmen darüber, warum die Daten fehlen (z. B. "zufällig fehlen").





2
Was ist besser, Ersatz durch Mittelwert und Ersatz durch Median?
Ich mache ein Projekt, bei dem fehlende Werte in einem Datensatz ersetzt werden (dies geschieht zum ersten Mal). Dies beinhaltet die Verwendung von zwei Methoden replacement by meanund replacement by mediandas Ausfüllen der fehlenden Werte. Es gibt keinen großen Unterschied zwischen den Ergebnissen der minimalen, mittleren, maximalen, mittleren und Standardabweichung …

1
Imputation einer zensierten Variablen
Ich habe einen medizinischen Datensatz mit ca. 200 Variablen. Eine der Variablen ist ein Bio-Marker (Konzentration eines bestimmten Enzyms). Die Verteilung ist recht schief und das Problem ist, dass Werte über einem bestimmten Level auf diesem Level zensiert / abgeschnitten werden. Während der Mittelwert der Variablen bei 10 liegt, werden …

1
Wie funktioniert die Imputationsfunktion der Mäuse?
Ich habe mich gefragt, ob jemand Erfahrung mit der Mäusefunktion hat, wie in Mäusen beschrieben: Multivariate Imputation durch verkettete Gleichungen in R (JSS 2011 45 (3))? Ich habe einen Datensatz mit einer Reihe von Variablen, von denen jede einen unterschiedlichen Grad an fehlenden Daten aufweist. Meine Hauptfrage lautet: Angenommen, ich …

1
Verwendung eingeschränkter kubischer Splines mit dem Imputationspaket für R-Mäuse
Ich frage mich, wie eingeschränkte kubische Splines (wie im Effektivwertpaket) in die Imputationsmodelle innerhalb des Imputationspakets für R-Mäuse integriert werden können. Kontext : Ich mache biomedizinische Forschung und habe Zugang zu einem Datensatz, der aus Patienteneigenschaften und Daten über das Fortschreiten der Krankheit des Patienten besteht, neben den Ergebnissen nach …

3
Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
Wie kombiniere ich mehrere unterstellte Datensätze?
Ich benötige einen einzelnen unterstellten Datensatz (z. B. um einen Ländergruppen-Dummy aus den unterstellten Pro-Kopf-Einkommensdaten des Landes zu erstellen). R bietet ein Paketpaket zum Erstellen mehrerer unterstellter Daten (z. B. Amelia) und zum Kombinieren von Ergebnissen aus mehreren Datensätzen (wie in MItools). Ich mache mir Sorgen, ob ich alle unterstellten …

2
Imputation mit zufälligen Wäldern
Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …

1
Verwenden Sie die Mehrfachzuschreibung für Cox-Proportional-Gefahren und validieren Sie sie dann mit dem Effektivwertpaket?
Ich habe das Mäusepaket untersucht und noch keine Möglichkeit gefunden, die mehreren Imputationen zu verwenden, um ein Cox-Modell zu erstellen und dieses Modell dann mit der Funktion des Effektivpakets zu validieren validate(). Hier ist ein Beispielcode von dem, was ich bisher habe, unter Verwendung des Datensatzes veteran: library(rms) library(survival) library(mice) …

2
Fehlende Raten und mehrfache Anrechnung
Gibt es eine Grenze, die bei Verwendung der Mehrfachimputation (MI) am wenigsten akzeptabel ist? Kann ich beispielsweise MI verwenden, wenn die fehlenden Werte in einer Variablen 20% der Fälle ausmachen, während andere Variablen fehlende Werte aufweisen, jedoch nicht auf einem so hohen Niveau?

1
Guassianischer Prozess zur Datenimputation
Ich bin kürzlich bei Gelman et al. Auf Gaußsche Prozesse gestoßen. (2013), und ich versuche, mehr über ihre mögliche Anwendung zur Verwendung bei der Eingabe von Zeitreihendaten zu erfahren. Die interessierenden Daten sind eine einzelne variable Zeitreihe der Herzfrequenz einer Person, die unter Verwendung eines Fotoplethysmogramms (PPG; ein optischer Sensor, …

1
Wie kann ein Algorithmus zur Vorhersage von Zeitreihen am besten bewertet werden?
Was ist die beste Vorgehensweise zum Trainieren und Bewerten eines Vorhersagealgorithmus für eine Zeitreihe? Zum Lernen von Algorithmen, die im Batch-Modus trainiert werden, kann ein naiver Programmierer den Rohdatensatz [(sample, expected prediction),...]direkt an die train()Methode des Algorithmus weitergeben . Dies zeigt normalerweise eine künstlich hohe Erfolgsrate, da der Algorithmus effektiv …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.