Wenn die Daten fehlen, sind fehlende Informationen (Lücken), dh nicht vollständig. Daher ist es wichtig, diese Funktion bei der Durchführung einer Analyse oder eines Tests zu berücksichtigen.
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
Ich habe eine Reihe von x, y-Daten, die ich zum Erstellen einer zufälligen Gesamtstruktur verwende. Die x-Daten sind ein Wertevektor, der einige NAs enthält. Also verwende ich rfImputedie fehlenden Daten und erstelle eine zufällige Gesamtstruktur. Jetzt habe ich eine neue unsichtbare Beobachtung x (mit einer NA) und möchte y vorhersagen. …
Ich hoffe, die Ergebnisse einer ziemlich einfachen Analyse zusammenfassen zu können, die mit mehrfach unterstellten Daten durchgeführt wurde (z. B. multiple Regression, ANOVA). Die mehrfache Imputation und die Analysen wurden in SPSS abgeschlossen, aber SPSS liefert keine gepoolten Ergebnisse für einige Statistiken, einschließlich F-Wert, Kovarianzmatrix, R-Quadrat usw. Ich habe einige …
Was sind einige typische Ansätze zum Umgang mit unvollständigen Daten im Kalman-Filter? Ich spreche von der Situation, in der einige Elemente des beobachteten Vektors fehlen, im dem Fall, in dem ein ganzer beobachteter Vektor . Eine andere Art, darüber nachzudenken, wäre, dass die Dimension des beobachteten Vektors für jeden Zeitpunkt …
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
Ich habe ein Problem wo y=a+by=a+by = a + b Ich beobachte y, aber weder noch b . Ich möchte schätzenaaabbb b=f(x)+ϵb=f(x)+ϵb = f(x) + \epsilon Ich kann mithilfe eines Regressionsmodells schätzen. Das gibt mir b . Ich könnte dann schätzenaaab^b^\hat b b^=f(x)+ϵb^=f(x)+ϵ\hat b = f(x) + \epsilon Erstes Problem: …
Ich habe Probleme, eine Lösung für die Durchführung eines Post-hoc-Tests (Tukey HSD) nach einer ANOVA mit 2 Faktoren (beide innerhalb der Probanden) mit wiederholten Messungen in R zu finden. Für die ANOVA habe ich die aov-Funktion verwendet: summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) Nachdem ich Antworten auf andere …
Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …
Ich verwende ARMA über einen Datensatz mit fehlenden Proben. Wie behandle ich sie? Würden Sie vorschlagen, eine lineare / nichtlineare Interpolation durchzuführen oder sie einfach fernzuhalten und zwei Stichproben mit fehlenden Daten dazwischen als aufeinanderfolgende Stichproben zu betrachten?
Gibt es eine Grenze, die bei Verwendung der Mehrfachimputation (MI) am wenigsten akzeptabel ist? Kann ich beispielsweise MI verwenden, wenn die fehlenden Werte in einer Variablen 20% der Fälle ausmachen, während andere Variablen fehlende Werte aufweisen, jedoch nicht auf einem so hohen Niveau?
Ist die Methode der mittleren Substitution zum Ersetzen fehlender Daten veraltet? Gibt es anspruchsvollere Modelle, die verwendet werden sollten? Wenn ja, was sind sie?
Ich verwende ein verteiltes Verzögerungsmodell, um Zeitreihendaten zu analysieren. Die Studiendauer beträgt 18 Jahre, und die Beobachtung besteht aus jährlichen Daten. Wenn ein 1-Jahres-Verzögerungseffekt einbezogen wird, fehlt das erste Jahr der Verzögerungsvariablen. Bei einem Verzögerungseffekt von 2 Jahren fehlen dann die ersten beiden Daten der Verzögerungsvariablen usw. Ich werde in …
Ich versuche, das Alter (6-90 Jahre) mit der Lautstärke der Stimme (in dB) zu korrelieren. Meine Daten enthalten jedoch keine Datenpunkte im Bereich von 20 bis 50 Jahren. Welches Korrelationsmaß ist bei einer so großen Lücke am besten geeignet und warum? Ich habe Kendall Tau bisher benutzt. Beachten Sie, dass …
Ich bin Designer und versuche, einen Datensatz über die Zeit zu zeichnen. Zum Beispiel, Day1 Day2 Day3 Day4 Day5 10 53 21 67 38 Ich verwende ein normales Liniendiagramm, um dies zu zeichnen, aber wenn für ein oder zwei Tage dazwischen keine Daten verfügbar sind (wie zum Beispiel unten), gehen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.