Wenn die Daten fehlen, sind fehlende Informationen (Lücken), dh nicht vollständig. Daher ist es wichtig, diese Funktion bei der Durchführung einer Analyse oder eines Tests zu berücksichtigen.
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
Was sind theoretische Gründe, um fehlende Werte nicht zu behandeln? Gradientenverstärkungsmaschinen und Regressionsbäume verarbeiten fehlende Werte. Warum macht Random Forest das nicht?
Ich beziehe mich auf dieses Papier: Hayes JR, Groner JI. "Mithilfe multipler Imputations- und Neigungsbewertungen können Sie die Auswirkung der Verwendung von Autositzen und Sicherheitsgurten auf den Schweregrad von Verletzungen anhand von Daten aus dem Unfallregister testen." J Pediatr Surg. 2008 May; 43 (5): 924 & ndash; 7. In dieser …
Ich habe einen Datensatz. Es fehlen viele Werte. Bei einigen Spalten wurde der fehlende Wert durch -999 ersetzt, bei anderen Spalten wurde der fehlende Wert als 'NA' markiert. Warum sollten wir -999 verwenden, um den fehlenden Wert zu ersetzen?
Ich möchte einen Vektor B für jede der Spalten in einer Matrix A regressieren. Dies ist trivial, wenn keine Daten fehlen. Wenn die Matrix A jedoch fehlende Werte enthält, darf meine Regression für A nur Zeilen enthalten, in denen alle enthalten sind Werte sind vorhanden (das Standardverhalten von na.omit ). …
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …
Ich bevorzuge Caret wegen seiner Parametertuning-Fähigkeit und seiner einheitlichen Benutzeroberfläche, aber ich habe festgestellt, dass immer vollständige Datensätze (dh ohne NAs) erforderlich sind, auch wenn das angewendete "nackte" Modell NAs zulässt. Das ist sehr lästig, insofern sollte man arbeitsintensive Anrechnungsmethoden anwenden, die an erster Stelle nicht notwendig sind. Wie kann …
Ich versuche, ein Vorhersagemodell mit hochdimensionalen klinischen Daten einschließlich Laborwerten zu entwickeln. Der Datenraum ist mit 5k Samples und 200 Variablen spärlich. Die Idee ist, die Variablen mithilfe einer Feature-Auswahlmethode (IG, RF usw.) zu klassifizieren und hochrangige Features für die Entwicklung eines Vorhersagemodells zu verwenden. Während die Featureauswahl mit einem …
Ich habe einige Erklärungen zum EM-Algorithmus gelesen (z. B. aus Bishops Mustererkennung und maschinellem Lernen sowie aus dem ersten Kurs von Roger und Gerolami über maschinelles Lernen). Die Ableitung von EM ist in Ordnung, ich verstehe es. Ich verstehe auch, warum der Algorithmus etwas überdeckt: Bei jedem Schritt verbessern wir …
Hinweis: Ich stelle eine Frage eines ehemaligen Studenten, der aus technischen Gründen nicht in der Lage ist, selbst zu posten. Ausgehend von einer iid-Stichprobe x1, … , Xnx1,…,xnx_1,\ldots,x_n aus einer Weibull-Verteilung mit pdf fk( X ) = k xk - 1e- xkx > 0fk(x)=kxk-1e-xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad …
Ich habe die prcomp()Funktion verwendet, um eine PCA (Principal Component Analysis) in R durchzuführen. Es gibt jedoch einen Fehler in dieser Funktion, sodass der na.actionParameter nicht funktioniert. Ich bat um Hilfe beim Stackoverflow . dort boten zwei benutzer zwei verschiedene möglichkeiten, mit NAwerten umzugehen . Das Problem bei beiden Lösungen …
Welche Methoden verwenden Entscheidungsbaum-Lernalgorithmen, um mit fehlenden Werten umzugehen? Füllen sie einfach den Slot mit einem Wert namens missing aus? Vielen Dank.
Ich habe eine große Menge von Merkmalsvektoren, die ich verwenden werde, um ein Binärklassifizierungsproblem anzugreifen (mit Scikit Learn in Python). Bevor ich mich mit Imputation beschäftige, möchte ich anhand der verbleibenden Teile der Daten feststellen, ob die fehlenden Daten "zufällig" oder nicht zufällig fehlen. Was ist ein vernünftiger Weg, um …
Ich habe mehrere Imputationen verwendet, um eine Reihe vollständiger Datensätze zu erhalten. Ich habe bei jedem der vervollständigten Datensätze Bayes'sche Methoden verwendet, um die posterioren Verteilungen für einen Parameter zu erhalten (ein zufälliger Effekt). Wie kann ich die Ergebnisse für diesen Parameter kombinieren / bündeln? Mehr Kontext: Mein Modell ist …
Was sind die Hauptunterschiede zwischen Daten mit geringer Dichte und fehlenden Daten? Und wie beeinflusst es das maschinelle Lernen? Genauer gesagt, welche Auswirkung haben spärliche Daten und fehlende Daten auf Klassifizierungsalgorithmen und Regressionsalgorithmen (Vorhersage von Zahlen). Ich spreche von einer Situation, in der der Prozentsatz fehlender Daten erheblich ist und …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.