Wenn die Daten fehlen, sind fehlende Informationen (Lücken), dh nicht vollständig. Daher ist es wichtig, diese Funktion bei der Durchführung einer Analyse oder eines Tests zu berücksichtigen.
Ich habe eine Datentabelle T1, die fast tausend Variablen (V1) und rund 200 Millionen Datenpunkte enthält. Die Daten sind spärlich und die meisten Einträge sind NA. Jeder Datenpunkt hat ein eindeutiges Paar aus ID und Datum, um sich von anderen zu unterscheiden. Ich habe eine andere Tabelle T2, die einen …
Kontext : Hierarchische Regression mit einigen fehlenden Daten. Frage : Wie verwende ich die FIML-Schätzung (Full Information Maximum Likelihood), um fehlende Daten in R zu beheben? Gibt es ein Paket, das Sie empfehlen würden, und was sind typische Schritte? Auch Online-Ressourcen und Beispiele wären sehr hilfreich. PS : Ich bin …
Ich habe einen Datensatz über landwirtschaftliche Versuche. Meine Antwortvariable ist ein Antwortverhältnis: log (Behandlung / Kontrolle). Ich bin daran interessiert, was den Unterschied ausmacht, und führe daher RE-Meta-Regressionen durch (ungewichtet, da ziemlich klar ist, dass die Effektgröße nicht mit der Varianz der Schätzungen korreliert). Jede Studie gibt den Getreideertrag, den …
Basisdaten : Ich habe ~ 1.000 Personen, die mit Bewertungen gekennzeichnet sind: "1", "[gut]" 2 "," [mittel] oder "3" [schlecht] - dies sind die Werte, die ich für die Zukunft der Menschen vorhersagen möchte . Zusätzlich habe ich einige demografische Informationen: Geschlecht (kategorial: M / W), Alter (numerisch: 17-80) und …
Eine zufällige Bevölkerungsstichprobe wurde erhoben. Sie wurden gefragt, ob sie vegetarisch essen. Wenn sie mit Ja geantwortet haben, wurden sie auch gebeten, anzugeben, wie lange sie ohne Unterbrechung vegetarisch ernährt haben. Ich möchte diese Daten verwenden, um die durchschnittliche Dauer der Einhaltung des Vegetarismus zu berechnen. Mit anderen Worten, wenn …
Ich bin beeindruckt vom R- forecastPaket, sowie zB dem zooPaket für unregelmäßige Zeitreihen und Interpolation fehlender Werte. Meine Anwendung liegt im Bereich der Callcenter-Verkehrsprognose, daher fehlen (fast) immer Daten an den Wochenenden, die gut verarbeitet werden können zoo. Außerdem können einige diskrete Punkte fehlen, ich benutze einfach Rs NAdafür. Die …
Ich habe eine große Anzahl von Verschmutzungsdaten, die im Laufe von 2 Jahren alle 10 Minuten aufgezeichnet wurden, es gibt jedoch eine Reihe von Lücken in den Daten (einschließlich einiger, die sich über mehrere Wochen erstrecken). Die Daten scheinen ziemlich saisonal zu sein und es gibt tagsüber eine große Variation …
Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting …
Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …
Ich weiß, dass dies statistisch gesehen vielleicht ein bisschen blöd ist, aber das ist mein Problem. Ich habe viele Bereichsdaten, das heißt das Minimum, das Maximum und die Stichprobengröße einer Variablen. Für einige dieser Daten habe ich auch einen Mittelwert, aber nicht viele. Ich möchte diese Bereiche miteinander vergleichen, um …
Es scheint keinen Standard für den Umgang mit fehlenden Daten im Kontext der Modellfamilie der exponentiellen Glättung zu geben. Insbesondere die R-Implementierung mit dem Namen ets im Prognosepaket scheint die längste Folge ohne fehlende Daten zu haben, und das Buch "Forecasting with Exponential Smoothing" von Hyndman et al. scheint überhaupt …
Was sind einige Ansätze zur Klassifizierung von Daten mit einer variablen Anzahl von Features? Betrachten Sie als Beispiel ein Problem, bei dem jeder Datenpunkt ein Vektor von x- und y-Punkten ist und wir nicht für jede Instanz die gleiche Anzahl von Punkten haben. Können wir jedes Paar von x- und …
Ich habe mir diese beiden mehrmals erklären lassen. Sie kochen weiter mein Gehirn. Nicht zufällig zu vermissen macht Sinn zu sein, und völlig zufällig zu vermissen macht Sinn ... es ist das Vermissen zufällig, das nicht so viel bedeutet. Wodurch entstehen Daten, die MAR, aber nicht MCAR wären?
Ich möchte die Imputation verwenden, um fehlende Werte in meinem Datensatz unter bestimmten Bedingungen zu ersetzen. Zum Beispiel möchte ich, dass die unterstellte Variable x1größer oder gleich der Summe meiner beiden anderen Variablen ist, sagen wir x2und x3. Ich möchte x3auch von entweder 0oder unterstellt werden, >= 14und ich möchte …
Ich lese Multivariable Model Building: Ein pragmatischer Ansatz zur Regressionsanalyse basierend auf fraktionellen Polynomen zur Modellierung kontinuierlicher Variablen von Patrick Royston und Willie Sauerbrei. Bisher bin ich beeindruckt und es ist ein interessanter Ansatz, den ich vorher nicht in Betracht gezogen hatte. Die Autoren gehen jedoch nicht auf fehlende Daten …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.