Wenn die Daten fehlen, sind fehlende Informationen (Lücken), dh nicht vollständig. Daher ist es wichtig, diese Funktion bei der Durchführung einer Analyse oder eines Tests zu berücksichtigen.
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
Ich versuche, anomale Werte in einer Zeitreihe von Klimadaten mit einigen fehlenden Beobachtungen zu ermitteln. Beim Durchsuchen des Webs habe ich viele verfügbare Ansätze gefunden. Von diesen scheint die Zersetzung im Sinne der Entfernung von Trends und saisonalen Bestandteilen und der Untersuchung des Restes ansprechend zu sein. Lesen von STL: …
Es gibt eine Variable in meinen Daten, bei der 80% der Daten fehlen. Die Daten fehlen wegen Nichtvorhandenseins (dh wie viel Bankdarlehen das Unternehmen schuldet). Ich bin auf einen Artikel gestoßen, in dem es heißt, dass die Dummy-Variable-Einstellmethode die Lösung für dieses Problem ist. Bedeutet das, dass ich diese stetige …
Meine Frage bezieht sich auf Techniken zum Umgang mit unvollständigen Daten während des Klassifikators / Modelltrainings / Anpassens. In einem Datensatz mit einigen hundert Zeilen, wobei jede Zeile beispielsweise fünf Dimensionen und eine Klassenbezeichnung als letztes Element aufweist, sehen die meisten Datenpunkte folgendermaßen aus: [0,74, 0,39, 0,14, 0,33, 0,34, 0] …
Ich habe diesen riesigen Datensatz mit ungefähr 2500 Variablen und ungefähr 142 Beobachtungen. Ich möchte eine Korrelation zwischen Variable X und dem Rest der Variablen ausführen. Bei vielen Spalten fehlen jedoch Einträge. Ich habe versucht, dies in R mit dem Argument "pairwise-complete" ( use=pairwise.complete.obs) zu tun, und es wurden eine …
Ich verwende "glmnet" für die Lasso-Regression in GWAS. Einige Varianten und Personen haben fehlende Werte und es scheint, dass glmnet fehlende Werte nicht verarbeiten kann. Gibt es dafür eine Lösung? oder gibt es ein anderes Paket, das fehlende Werte in der Lasso-Regression verarbeiten kann? Hier sind meine Skripte. > library(glmnet) …
Ich habe eine Prognosemethode ausprobiert und möchte überprüfen, ob meine Methode korrekt ist oder nicht. Meine Studie vergleicht verschiedene Arten von Investmentfonds. Ich möchte den GCC-Index als Benchmark für einen von ihnen verwenden, aber das Problem ist, dass der GCC-Index im September 2011 gestoppt wurde und meine Studie von Januar …
Ich habe nie wirklich einen guten Text oder Beispiele gefunden, wie man mit 'nicht existierenden' Daten für Eingaben in irgendeine Art von Klassifikator umgeht. Ich habe viel über fehlende Daten gelesen, aber was kann mit Daten getan werden, die in Bezug auf multivariate Eingaben nicht existieren können oder nicht. Ich …
Ich habe folgendes Problem: - Wir haben eine Gruppe von N Personen - Wir haben eine Gruppe von K Bildern - Jede Person bewertet eine bestimmte Anzahl von Bildern. Eine Person könnte ein Bild mögen oder nicht (dies sind die einzigen zwei Möglichkeiten). - Das Problem ist, wie man die …
Kürzlich habe ich den XGBoost-Algorithmus überprüft und festgestellt, dass dieser Algorithmus fehlende Daten (ohne Imputation) in der Trainingsphase verarbeiten kann. Ich habe mich gefragt, ob XGboost fehlende Daten verarbeiten kann (ohne dass eine Imputation erforderlich ist), wenn sie zur Vorhersage neuer Beobachtungen verwendet werden oder die fehlenden Daten unterstellt werden …
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
Ich habe ein Problem mit der 2l.normMethode der mehrstufigen Imputation in mice. Leider kann ich aufgrund der Größe meiner Daten kein reproduzierbares Beispiel veröffentlichen. Wenn ich die Größe reduziere, verschwindet das Problem. miceErzeugt für eine bestimmte Variable die folgenden Fehler und Warnungen: Error in chol.default(inv.sigma2[class] * X.SS[[class]] + inv.psi) : …
Ist die präzisionsbasierte Gewichtung für die Metaanalyse von zentraler Bedeutung? Borenstein et al. (2009) schreiben, dass für eine mögliche Metaanalyse lediglich Folgendes erforderlich ist: Studien berichten über eine Punktschätzung, die als einzelne Zahl ausgedrückt werden kann. Für diese Punktschätzung kann eine Varianz berechnet werden. Mir ist nicht sofort klar, warum …
Ich frage mich, ob jemand einen Einblick geben könnte, ob eine Warum-Imputation für fehlende Daten besser ist, als einfach verschiedene Modelle für Fälle mit fehlenden Daten zu erstellen. Besonders im Fall von [verallgemeinerten] linearen Modellen (ich kann vielleicht in nichtlinearen Fällen sehen, dass die Dinge anders sind) Angenommen, wir haben …
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.