Statistiken und Big Data multivariate-analysis

5

Welche Fähigkeiten sind erforderlich, um umfangreiche statistische Analysen durchzuführen?

Viele statistische Jobs erfordern Erfahrung mit umfangreichen Daten. Welche statistischen und rechnerischen Fähigkeiten wären für die Arbeit mit großen Datenmengen erforderlich? Wie wäre es beispielsweise mit der Erstellung von Regressionsmodellen bei einem Datensatz mit 10 Millionen Stichproben?

107 regression machine-learning multivariate-analysis large-data

13

Wie lassen sich Ausreißer in multivariaten Daten am besten identifizieren?

Angenommen, ich habe einen großen Satz multivariater Daten mit mindestens drei Variablen. Wie finde ich die Ausreißer? Paarweise Streudiagramme funktionieren nicht, da es möglich ist, dass ein Ausreißer in drei Dimensionen existiert, der in keinem der zweidimensionalen Teilräume ein Ausreißer ist. Ich denke nicht an ein Regressionsproblem, sondern an echte …

94 multivariate-analysis outliers

3

Ist es möglich, ein Paar von Gaußschen Zufallsvariablen zu haben, für die die gemeinsame Verteilung nicht Gaußsch ist?

Jemand hat mir diese Frage in einem Vorstellungsgespräch gestellt und ich habe geantwortet, dass ihre gemeinsame Verteilung immer Gaußsch ist. Ich dachte, dass ich immer einen bivariaten Gaußschen mit ihren Mitteln und Varianz und Kovarianzen schreiben kann. Ich frage mich, ob es einen Fall geben kann, bei dem die gemeinsame …

91 normal-distribution multivariate-analysis copula bivariate

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Multivariate multiple Regression in R

Ich habe 2 abhängige Variablen (DVs), deren Punktzahl durch die Menge von 7 unabhängigen Variablen (IVs) beeinflusst werden kann. DVs sind kontinuierlich, während der Satz von IVs aus einer Mischung aus kontinuierlichen und binär codierten Variablen besteht. (Im folgenden Code werden fortlaufende Variablen in Großbuchstaben und binäre Variablen in Kleinbuchstaben …

68 r multivariate-analysis manova multiple-regression multivariate-regression

2

Welche Beziehung besteht zwischen der Analyse unabhängiger Komponenten und der Faktoranalyse?

Ich bin neu in der Independent Component Analysis (ICA) und verstehe die Methode nur ansatzweise. Es scheint mir, dass ICA der Faktoranalyse (FA) mit einer Ausnahme ähnlich ist: ICA geht davon aus, dass die beobachteten Zufallsvariablen eine lineare Kombination unabhängiger Komponenten / Faktoren sind, die nicht-gaußsch sind, während das klassische …

67 multivariate-analysis factor-analysis ica

5

Ist es eine gute Idee, die p-Werte in einer multiplen Regression für multiple Vergleiche anzupassen?

Nehmen wir an, Sie sind ein sozialwissenschaftlicher Forscher / Ökonometriker, der versucht, relevante Prädiktoren für die Nachfrage nach einer Dienstleistung zu finden. Sie haben 2 ergebnis- / abhängige Variablen, die den Bedarf beschreiben (unter Verwendung des Dienstes yes / no und der Anzahl der Fälle). Sie haben 10 Prädiktor- / …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

3

Was ist die Intuition hinter bedingten Gaußschen Verteilungen?

Angenommen, . Dann ist die bedingte Verteilung von unter der Voraussetzung , dass multivariate Normalverteilung mit dem Mittelwert:X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) und Varianz:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} Es ist sinnvoll, dass die Varianz abnimmt, da wir mehr …

46 normal-distribution multivariate-analysis intuition

3

Interpretation des log transformierten Prädiktors und / oder der Antwort

Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

5

Inwiefern unterscheiden sich Neigungsbewertungen von der Addition von Kovariaten in einer Regression, und wann werden sie letzteren vorgezogen?

Ich gebe zu, dass ich in Bezug auf Neigungsbewertungen und Kausalanalysen relativ neu bin. Eine Sache, die mir als Neuling nicht klar ist, ist, wie sich das "Ausbalancieren" unter Verwendung von Neigungsbewertungen mathematisch von dem unterscheidet, was passiert, wenn wir Kovariaten in einer Regression hinzufügen? Was ist anders an der …

41 regression multivariate-analysis causality propensity-scores

1

PCA- und Korrespondenzanalyse in Bezug auf Biplot

Biplot wird häufig verwendet, um Ergebnisse der Hauptkomponentenanalyse (und verwandter Techniken) anzuzeigen . Es ist eine Dual oder Overlay Streukomponente zeigt Belastungen und Komponenten Partituren gleichzeitig. Ich wurde heute von @amoeba darüber informiert, dass er abweichend von meinem Kommentar eine Antwort auf eine Frage gegeben hat, in der gefragt wird, …

38 pca multivariate-analysis svd correspondence-analysis biplot

3

Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?

Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche Ergebnisse liefern. Ich habe die angewandte logistische Regression von Hosmer & Lemeshow (2. Auflage) …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

7

Gibt es eine akzeptierte Definition für den Median einer Stichprobe in der Ebene oder Räume höherer Ordnung?

Wenn ja, was? Wenn nein, warum nicht? Für eine Stichprobe auf der Linie minimiert der Median die absolute Gesamtabweichung. Es erscheint natürlich, die Definition auf R2 usw. zu erweitern, aber ich habe es nie gesehen. Aber dann bin ich schon lange im linken Feld unterwegs.

33 multivariate-analysis spatial median

5

Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen

Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

SVD der korrelierten Matrix sollte additiv sein, scheint aber nicht zu sein

Ich versuche nur, eine Behauptung zu wiederholen , die in dem folgenden Artikel , Finden von korrelierten Biklustern aus Genexpressionsdaten , gemacht wurde: Proposition 4. Wenn . dann haben wir:XichJ= RichCTJXichJ=RichCJTX_{IJ}=R_{I}C^{T}_{J} ich. Wenn ein perfekter Bicluster mit additivem Modell ist, dann ist ein perfekter Bicluster mit Korrelation auf Spalten; ii. …

29 correlation multivariate-analysis svd

Als «multivariate-analysis» getaggte Fragen