Statistiken und Big Data missing-data

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

Wie kann man eine fehlende kategoriale Prädiktorvariable für ein zufälliges Waldmodell unterstellen?

Ich habe eine Reihe von x, y-Daten, die ich zum Erstellen einer zufälligen Gesamtstruktur verwende. Die x-Daten sind ein Wertevektor, der einige NAs enthält. Also verwende ich rfImputedie fehlenden Daten und erstelle eine zufällige Gesamtstruktur. Jetzt habe ich eine neue unsichtbare Beobachtung x (mit einer NA) und möchte y vorhersagen. …

8 r random-forest missing-data

2

Anwendung der Rubin-Regel zum Kombinieren mehrfach unterstellter Datensätze

Ich hoffe, die Ergebnisse einer ziemlich einfachen Analyse zusammenfassen zu können, die mit mehrfach unterstellten Daten durchgeführt wurde (z. B. multiple Regression, ANOVA). Die mehrfache Imputation und die Analysen wurden in SPSS abgeschlossen, aber SPSS liefert keine gepoolten Ergebnisse für einige Statistiken, einschließlich F-Wert, Kovarianzmatrix, R-Quadrat usw. Ich habe einige …

8 spss missing-data multiple-imputation pooling

2

Wie gehe ich mit unvollständigen Daten in Kalman Filter um?

Was sind einige typische Ansätze zum Umgang mit unvollständigen Daten im Kalman-Filter? Ich spreche von der Situation, in der einige Elemente des beobachteten Vektors fehlen, im dem Fall, in dem ein ganzer beobachteter Vektor . Eine andere Art, darüber nachzudenken, wäre, dass die Dimension des beobachteten Vektors für jeden Zeitpunkt …

8 missing-data kalman-filter

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Relative Vorteile der multiplen Imputation und Erwartungsmaximierung (EM)

Ich habe ein Problem wo y=a+by=a+by = a + b Ich beobachte y, aber weder noch b . Ich möchte schätzenaaabbb b=f(x)+ϵb=f(x)+ϵb = f(x) + \epsilon Ich kann mithilfe eines Regressionsmodells schätzen. Das gibt mir b . Ich könnte dann schätzenaaab^b^\hat b b^=f(x)+ϵb^=f(x)+ϵ\hat b = f(x) + \epsilon Erstes Problem: …

8 missing-data multiple-imputation expectation-maximization

2

Post-hoc-Test nach 2-Faktor-Wiederholungsmessungen ANOVA in R?

Ich habe Probleme, eine Lösung für die Durchführung eines Post-hoc-Tests (Tukey HSD) nach einer ANOVA mit 2 Faktoren (beide innerhalb der Probanden) mit wiederholten Messungen in R zu finden. Für die ANOVA habe ich die aov-Funktion verwendet: summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) Nachdem ich Antworten auf andere …

8 r anova repeated-measures post-hoc tukey-hsd goodness-of-fit curve-fitting sem latent-variable mplus anova post-hoc tukey-hsd markov-process image-processing r time-series causality granger-causality anova mixed-model lme4-nlme random-effects-model r matlab data-transformation multinomial notation estimation nonparametric logistic r missing-data multiple-imputation mice

2

Imputation mit zufälligen Wäldern

Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …

8 data-mining predictive-models missing-data random-forest data-imputation

1

Konfidenzintervalle bei Verwendung des Bayes-Theorems

Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

1

Verwenden von ARMA, wenn Daten fehlen

Ich verwende ARMA über einen Datensatz mit fehlenden Proben. Wie behandle ich sie? Würden Sie vorschlagen, eine lineare / nichtlineare Interpolation durchzuführen oder sie einfach fernzuhalten und zwei Stichproben mit fehlenden Daten dazwischen als aufeinanderfolgende Stichproben zu betrachten?

8 time-series arima missing-data fitting interpolation

2

Fehlende Raten und mehrfache Anrechnung

Gibt es eine Grenze, die bei Verwendung der Mehrfachimputation (MI) am wenigsten akzeptabel ist? Kann ich beispielsweise MI verwenden, wenn die fehlenden Werte in einer Variablen 20% der Fälle ausmachen, während andere Variablen fehlende Werte aufweisen, jedoch nicht auf einem so hohen Niveau?

8 missing-data data-imputation

4

Ist die Methode der mittleren Substitution zum Ersetzen fehlender Daten veraltet?

Ist die Methode der mittleren Substitution zum Ersetzen fehlender Daten veraltet? Gibt es anspruchsvollere Modelle, die verwendet werden sollten? Wenn ja, was sind sie?

8 missing-data

1

Wie kann der Informationsverlust durch Verzögerungsvariablen verringert werden?

Ich verwende ein verteiltes Verzögerungsmodell, um Zeitreihendaten zu analysieren. Die Studiendauer beträgt 18 Jahre, und die Beobachtung besteht aus jährlichen Daten. Wenn ein 1-Jahres-Verzögerungseffekt einbezogen wird, fehlt das erste Jahr der Verzögerungsvariablen. Bei einem Verzögerungseffekt von 2 Jahren fehlen dann die ersten beiden Daten der Verzögerungsvariablen usw. Ich werde in …

8 time-series missing-data

1

Welches Korrelationsmaß sollte mit einer großen Lücke verwendet werden (fehlende Daten)?

Ich versuche, das Alter (6-90 Jahre) mit der Lautstärke der Stimme (in dB) zu korrelieren. Meine Daten enthalten jedoch keine Datenpunkte im Bereich von 20 bis 50 Jahren. Welches Korrelationsmaß ist bei einer so großen Lücke am besten geeignet und warum? Ich habe Kendall Tau bisher benutzt. Beachten Sie, dass …

8 distributions correlation missing-data

1

Datenvisualisierung für fehlende Daten

Ich bin Designer und versuche, einen Datensatz über die Zeit zu zeichnen. Zum Beispiel, Day1 Day2 Day3 Day4 Day5 10 53 21 67 38 Ich verwende ein normales Liniendiagramm, um dies zu zeichnen, aber wenn für ein oder zwei Tage dazwischen keine Daten verfügbar sind (wie zum Beispiel unten), gehen …

8 data-visualization missing-data splines

Als «missing-data» getaggte Fragen