Statistiken und Big Data data-imputation

3

Kombinieren von zwei Zeitreihen durch Mitteln der Datenpunkte

Ich möchte die prognostizierten und zurückgesendeten (dh die vorhergesagten vergangenen Werte) eines Zeitreihendatensatzes zu einer Zeitreihe kombinieren, indem ich den mittleren quadratischen Vorhersagefehler minimiere. Angenommen, ich habe Zeitreihen von 2001 bis 2010 mit einer Lücke für das Jahr 2007. Ich konnte 2007 anhand der Daten von 2001 bis 2007 (rote …

10 r time-series forecasting data-imputation

1

Warum ist diese Mehrfachzuschreibung von geringer Qualität?

Betrachten Sie den folgenden R-Code: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 Wie Sie sehen, habe ich die Daten so konstruiert, dass sie …

9 r data-imputation multiple-imputation

2

Imputation zur Berücksichtigung systematischer Fehler in den Umfrageantworten

Ich habe eine große Umfrage, in der die Schüler unter anderem nach dem Bildungsstand ihrer Mutter gefragt wurden. Einige haben es übersprungen, andere haben falsch geantwortet. Ich weiß das, weil dort eine Teilstichprobe der ersten befragten Mütter später befragt wurde und dieselbe Frage stellte. (Ich bin sicher, dass mit den …

9 data-imputation

1

Multiple Imputation für fehlende Zähldaten in einer Zeitreihe aus einer Panelstudie

Ich versuche, ein Problem anzugehen, das sich mit der Imputation fehlender Daten aus einer Paneldatenstudie befasst. (Ich bin mir nicht sicher, ob ich die Paneldatenstudie richtig verwende - wie ich es heute gelernt habe.) Ich habe Daten zur Gesamtzahl der Todesfälle für die Jahre 2003 bis 2009 alle Monate, männlich …

9 r time-series panel-data data-imputation

2

Was ist besser, Ersatz durch Mittelwert und Ersatz durch Median?

Ich mache ein Projekt, bei dem fehlende Werte in einem Datensatz ersetzt werden (dies geschieht zum ersten Mal). Dies beinhaltet die Verwendung von zwei Methoden replacement by meanund replacement by mediandas Ausfüllen der fehlenden Werte. Es gibt keinen großen Unterschied zwischen den Ergebnissen der minimalen, mittleren, maximalen, mittleren und Standardabweichung …

9 mean median data-imputation

1

Imputation einer zensierten Variablen

Ich habe einen medizinischen Datensatz mit ca. 200 Variablen. Eine der Variablen ist ein Bio-Marker (Konzentration eines bestimmten Enzyms). Die Verteilung ist recht schief und das Problem ist, dass Werte über einem bestimmten Level auf diesem Level zensiert / abgeschnitten werden. Während der Mittelwert der Variablen bei 10 liegt, werden …

9 r epidemiology data-imputation censoring

1

Wie funktioniert die Imputationsfunktion der Mäuse?

Ich habe mich gefragt, ob jemand Erfahrung mit der Mäusefunktion hat, wie in Mäusen beschrieben: Multivariate Imputation durch verkettete Gleichungen in R (JSS 2011 45 (3))? Ich habe einen Datensatz mit einer Reihe von Variablen, von denen jede einen unterschiedlichen Grad an fehlenden Daten aufweist. Meine Hauptfrage lautet: Angenommen, ich …

9 r regression bayesian data-imputation mice

1

Verwendung eingeschränkter kubischer Splines mit dem Imputationspaket für R-Mäuse

Ich frage mich, wie eingeschränkte kubische Splines (wie im Effektivwertpaket) in die Imputationsmodelle innerhalb des Imputationspakets für R-Mäuse integriert werden können. Kontext : Ich mache biomedizinische Forschung und habe Zugang zu einem Datensatz, der aus Patienteneigenschaften und Daten über das Fortschreiten der Krankheit des Patienten besteht, neben den Ergebnissen nach …

8 data-imputation multiple-imputation splines

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

2

Wie kombiniere ich mehrere unterstellte Datensätze?

Ich benötige einen einzelnen unterstellten Datensatz (z. B. um einen Ländergruppen-Dummy aus den unterstellten Pro-Kopf-Einkommensdaten des Landes zu erstellen). R bietet ein Paketpaket zum Erstellen mehrerer unterstellter Daten (z. B. Amelia) und zum Kombinieren von Ergebnissen aus mehreren Datensätzen (wie in MItools). Ich mache mir Sorgen, ob ich alle unterstellten …

8 r data-imputation

2

Imputation mit zufälligen Wäldern

Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …

8 data-mining predictive-models missing-data random-forest data-imputation

1

Verwenden Sie die Mehrfachzuschreibung für Cox-Proportional-Gefahren und validieren Sie sie dann mit dem Effektivwertpaket?

Ich habe das Mäusepaket untersucht und noch keine Möglichkeit gefunden, die mehreren Imputationen zu verwenden, um ein Cox-Modell zu erstellen und dieses Modell dann mit der Funktion des Effektivpakets zu validieren validate(). Hier ist ein Beispielcode von dem, was ich bisher habe, unter Verwendung des Datensatzes veteran: library(rms) library(survival) library(mice) …

8 r survival cox-model data-imputation rms

2

Fehlende Raten und mehrfache Anrechnung

Gibt es eine Grenze, die bei Verwendung der Mehrfachimputation (MI) am wenigsten akzeptabel ist? Kann ich beispielsweise MI verwenden, wenn die fehlenden Werte in einer Variablen 20% der Fälle ausmachen, während andere Variablen fehlende Werte aufweisen, jedoch nicht auf einem so hohen Niveau?

8 missing-data data-imputation

1

Guassianischer Prozess zur Datenimputation

Ich bin kürzlich bei Gelman et al. Auf Gaußsche Prozesse gestoßen. (2013), und ich versuche, mehr über ihre mögliche Anwendung zur Verwendung bei der Eingabe von Zeitreihendaten zu erfahren. Die interessierenden Daten sind eine einzelne variable Zeitreihe der Herzfrequenz einer Person, die unter Verwendung eines Fotoplethysmogramms (PPG; ein optischer Sensor, …

7 time-series gaussian-process data-imputation stan

1

Wie kann ein Algorithmus zur Vorhersage von Zeitreihen am besten bewertet werden?

Was ist die beste Vorgehensweise zum Trainieren und Bewerten eines Vorhersagealgorithmus für eine Zeitreihe? Zum Lernen von Algorithmen, die im Batch-Modus trainiert werden, kann ein naiver Programmierer den Rohdatensatz [(sample, expected prediction),...]direkt an die train()Methode des Algorithmus weitergeben . Dies zeigt normalerweise eine künstlich hohe Erfolgsrate, da der Algorithmus effektiv …

7 machine-learning predictive-models prediction time-series forecasting exponential-smoothing survival censoring probability distributions references multinomial combinatorics k-nearest-neighbour regression logistic r regression logistic predictive-models bayesian p-value frequentist consistency distributions censoring machine-learning mean missing-data data-imputation multiple-imputation

Als «data-imputation» getaggte Fragen