Als «missing-data» getaggte Fragen

Wenn die Daten fehlen, sind fehlende Informationen (Lücken), dh nicht vollständig. Daher ist es wichtig, diese Funktion bei der Durchführung einer Analyse oder eines Tests zu berücksichtigen.

3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 




3
Wie geht R mit fehlenden Werten in lm um?
Ich möchte einen Vektor B für jede der Spalten in einer Matrix A regressieren. Dies ist trivial, wenn keine Daten fehlen. Wenn die Matrix A jedoch fehlende Werte enthält, darf meine Regression für A nur Zeilen enthalten, in denen alle enthalten sind Werte sind vorhanden (das Standardverhalten von na.omit ). …

3
R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …

3
R Caret und NAs
Ich bevorzuge Caret wegen seiner Parametertuning-Fähigkeit und seiner einheitlichen Benutzeroberfläche, aber ich habe festgestellt, dass immer vollständige Datensätze (dh ohne NAs) erforderlich sind, auch wenn das angewendete "nackte" Modell NAs zulässt. Das ist sehr lästig, insofern sollte man arbeitsintensive Anrechnungsmethoden anwenden, die an erster Stelle nicht notwendig sind. Wie kann …

5
Algorithmen für maschinelles Lernen zur Behandlung fehlender Daten
Ich versuche, ein Vorhersagemodell mit hochdimensionalen klinischen Daten einschließlich Laborwerten zu entwickeln. Der Datenraum ist mit 5k Samples und 200 Variablen spärlich. Die Idee ist, die Variablen mithilfe einer Feature-Auswahlmethode (IG, RF usw.) zu klassifizieren und hochrangige Features für die Entwicklung eines Vorhersagemodells zu verwenden. Während die Featureauswahl mit einem …

2
Warum konvergiert der Expectation Maximization-Algorithmus garantiert gegen ein lokales Optimum?
Ich habe einige Erklärungen zum EM-Algorithmus gelesen (z. B. aus Bishops Mustererkennung und maschinellem Lernen sowie aus dem ersten Kurs von Roger und Gerolami über maschinelles Lernen). Die Ableitung von EM ist in Ordnung, ich verstehe es. Ich verstehe auch, warum der Algorithmus etwas überdeckt: Bei jedem Schritt verbessern wir …


4
Anrechnung fehlender Werte für PCA
Ich habe die prcomp()Funktion verwendet, um eine PCA (Principal Component Analysis) in R durchzuführen. Es gibt jedoch einen Fehler in dieser Funktion, sodass der na.actionParameter nicht funktioniert. Ich bat um Hilfe beim Stackoverflow . dort boten zwei benutzer zwei verschiedene möglichkeiten, mit NAwerten umzugehen . Das Problem bei beiden Lösungen …


5
Ein statistischer Ansatz, um festzustellen, ob zufällig Daten fehlen
Ich habe eine große Menge von Merkmalsvektoren, die ich verwenden werde, um ein Binärklassifizierungsproblem anzugreifen (mit Scikit Learn in Python). Bevor ich mich mit Imputation beschäftige, möchte ich anhand der verbleibenden Teile der Daten feststellen, ob die fehlenden Daten "zufällig" oder nicht zufällig fehlen. Was ist ein vernünftiger Weg, um …

2
Wie kann ich posteriore Mittel und glaubwürdige Intervalle nach mehrfacher Imputation zusammenfassen?
Ich habe mehrere Imputationen verwendet, um eine Reihe vollständiger Datensätze zu erhalten. Ich habe bei jedem der vervollständigten Datensätze Bayes'sche Methoden verwendet, um die posterioren Verteilungen für einen Parameter zu erhalten (ein zufälliger Effekt). Wie kann ich die Ergebnisse für diesen Parameter kombinieren / bündeln? Mehr Kontext: Mein Modell ist …

1
Unterschied zwischen fehlenden Daten und spärlichen Daten in Algorithmen für maschinelles Lernen
Was sind die Hauptunterschiede zwischen Daten mit geringer Dichte und fehlenden Daten? Und wie beeinflusst es das maschinelle Lernen? Genauer gesagt, welche Auswirkung haben spärliche Daten und fehlende Daten auf Klassifizierungsalgorithmen und Regressionsalgorithmen (Vorhersage von Zahlen). Ich spreche von einer Situation, in der der Prozentsatz fehlender Daten erheblich ist und …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.