Als «missing-data» getaggte Fragen

Wenn die Daten fehlen, sind fehlende Informationen (Lücken), dh nicht vollständig. Daher ist es wichtig, diese Funktion bei der Durchführung einer Analyse oder eines Tests zu berücksichtigen.

3
Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 


2
Anwendung der Rubin-Regel zum Kombinieren mehrfach unterstellter Datensätze
Ich hoffe, die Ergebnisse einer ziemlich einfachen Analyse zusammenfassen zu können, die mit mehrfach unterstellten Daten durchgeführt wurde (z. B. multiple Regression, ANOVA). Die mehrfache Imputation und die Analysen wurden in SPSS abgeschlossen, aber SPSS liefert keine gepoolten Ergebnisse für einige Statistiken, einschließlich F-Wert, Kovarianzmatrix, R-Quadrat usw. Ich habe einige …

2
Wie gehe ich mit unvollständigen Daten in Kalman Filter um?
Was sind einige typische Ansätze zum Umgang mit unvollständigen Daten im Kalman-Filter? Ich spreche von der Situation, in der einige Elemente des beobachteten Vektors fehlen, im dem Fall, in dem ein ganzer beobachteter Vektor . Eine andere Art, darüber nachzudenken, wäre, dass die Dimension des beobachteten Vektors für jeden Zeitpunkt …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 


2
Post-hoc-Test nach 2-Faktor-Wiederholungsmessungen ANOVA in R?
Ich habe Probleme, eine Lösung für die Durchführung eines Post-hoc-Tests (Tukey HSD) nach einer ANOVA mit 2 Faktoren (beide innerhalb der Probanden) mit wiederholten Messungen in R zu finden. Für die ANOVA habe ich die aov-Funktion verwendet: summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) Nachdem ich Antworten auf andere …

2
Imputation mit zufälligen Wäldern
Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …

1
Konfidenzintervalle bei Verwendung des Bayes-Theorems
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …


2
Fehlende Raten und mehrfache Anrechnung
Gibt es eine Grenze, die bei Verwendung der Mehrfachimputation (MI) am wenigsten akzeptabel ist? Kann ich beispielsweise MI verwenden, wenn die fehlenden Werte in einer Variablen 20% der Fälle ausmachen, während andere Variablen fehlende Werte aufweisen, jedoch nicht auf einem so hohen Niveau?


1
Wie kann der Informationsverlust durch Verzögerungsvariablen verringert werden?
Ich verwende ein verteiltes Verzögerungsmodell, um Zeitreihendaten zu analysieren. Die Studiendauer beträgt 18 Jahre, und die Beobachtung besteht aus jährlichen Daten. Wenn ein 1-Jahres-Verzögerungseffekt einbezogen wird, fehlt das erste Jahr der Verzögerungsvariablen. Bei einem Verzögerungseffekt von 2 Jahren fehlen dann die ersten beiden Daten der Verzögerungsvariablen usw. Ich werde in …


1
Datenvisualisierung für fehlende Daten
Ich bin Designer und versuche, einen Datensatz über die Zeit zu zeichnen. Zum Beispiel, Day1 Day2 Day3 Day4 Day5 10 53 21 67 38 Ich verwende ein normales Liniendiagramm, um dies zu zeichnen, aber wenn für ein oder zwei Tage dazwischen keine Daten verfügbar sind (wie zum Beispiel unten), gehen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.