Statistiken und Big Data r

3

Wem sollte github folgen, um mehr über bewährte Methoden in der Datenanalyse zu erfahren?

Es ist hilfreich, den Datenanalysecode von Experten zu studieren. Ich habe kürzlich Github durchgesehen und es gibt eine Reihe von Leuten, die dort Datenanalyse-Code austauschen . Dies beinhaltet einige R-Pakete (die natürlich direkt von CRAN erhältlich sind), aber auch einige Beispiele reproduzierbarer Forschung, insbesondere unter Verwendung von R ( siehe …

28 r reproducible-research

3

Gibt es Standardfunktionen für diskrete Gleichverteilungen in R?

Die meisten Standarddistributionen in R haben eine Befehlsfamilie - pdf / pmf, cdf / cmf, quantile, zufällige Abweichungen (zum Beispiel dnorm, pnorm, qnorm, rnorm). Ich weiß, es ist einfach genug, einige Standardbefehle zu verwenden, um diese Funktionen für die diskreten Gleichverteilungen zu reproduzieren, aber gibt es bereits eine bevorzugte integrierte …

28 r distributions uniform

3

Zeitreihen mit R

Wenn Sie zurückdenken, bis zu dem Zeitpunkt, als Sie mit der Zeitreihenanalyse begonnen haben. Welche Tools, R-Pakete und Internetressourcen hätten Sie gerne gewusst? Was ich versuche zu fragen ist, wo soll man anfangen? Speziell, gibt es irgendwelche Ressourcen für R, die es für jemanden, der "neu" in der Zeitreihenanalyse mit …

28 r time-series

3

Berechnung des p-Wertes mit Bootstrap mit R

Ich benutze das "boot" -Paket, um einen ungefähren 2-seitigen Bootstrap-P-Wert zu berechnen, aber das Ergebnis ist zu weit vom P-Wert entfernt, als dass man t.test verwenden könnte. Ich kann nicht herausfinden, was ich in meinem R-Code falsch gemacht habe. Kann mir bitte jemand einen Hinweis dazu geben time = c(14,18,11,13,18,17,21,9,16,17,14,15, …

28 r hypothesis-testing p-value bootstrap permutation-test

1

Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell

Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

5

Irgendwelche Vorschläge für die Verwendung mehrerer Prozessoren für R-Code?

Ich habe R-Skripte zum Lesen großer Mengen von CSV-Daten aus verschiedenen Dateien und führe dann maschinelle Lernaufgaben wie SVM zur Klassifizierung durch. Gibt es Bibliotheken für die Verwendung mehrerer Kerne auf dem Server für R. oder Was ist der geeignetste Weg, um dies zu erreichen?

28 r parallel-computing multicore

26

Welche R-Pakete finden Sie in Ihrer täglichen Arbeit am nützlichsten?

Doppelter Thread: Ich habe gerade die neueste Version von R installiert. Welche Pakete sollte ich erhalten? Was sind die R- Pakete, die Sie sich bei Ihrer täglichen Arbeit mit Daten nicht vorstellen können? Bitte listen Sie sowohl allgemeine als auch spezifische Tools auf. UPDATE: Stand 24.10.10 ggplot2scheint der Gewinner mit …

28 r

3

Wie gehe ich bei der Variablenauswahl mit Multikollinearität um?

Ich habe einen Datensatz mit 9 kontinuierlichen unabhängigen Variablen. Ich versuche, unter diesen Variablen auszuwählen, um ein Modell an eine einzelne prozentuale (abhängige) Variable anzupassen Score. Leider weiß ich, dass es ernsthafte Kollinearität zwischen mehreren Variablen geben wird. Ich habe versucht, die stepAIC()Funktion in R für die Variablenauswahl zu verwenden, …

28 r multiple-regression feature-selection multicollinearity

4

So reduzieren Sie die Dimensionalität in R

Ich habe eine Matrix, in der a (i, j) angibt, wie oft ich Seite j angesehen habe. Es gibt 27.000 Einzelpersonen und 95.000 Seiten. Ich möchte eine Handvoll "Dimensionen" oder "Aspekte" im Bereich von Seiten haben, die Gruppen von Seiten entsprechen, die oft zusammen betrachtet werden. Mein letztendliches Ziel ist …

28 r clustering dimensionality-reduction

1

Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?

Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

Was ist los mit t-SNE vs. PCA zur Dimensionsreduktion mit R?

Ich habe eine Matrix von 336x256 Gleitkommazahlen (336 Bakteriengenome (Spalten) x 256 normalisierte Tetranukleotidfrequenzen (Zeilen), z. B. addiert sich jede Spalte zu 1). Ich erhalte gute Ergebnisse, wenn ich meine Analyse mit der Hauptkomponentenanalyse durchführe. Zuerst berechne ich die kmeans-Cluster anhand der Daten, führe dann eine PCA durch und färbe …

27 r pca tsne

2

Was sind die Werte p, d, q in ARIMA?

arimaWas bedeutet in der Funktion in R order(1, 0, 12)? Was sind die Werte, die zugeordnet werden können p, d, q, und was der Prozess , diese Werte zu finden ist?

27 r time-series arima

1

Angemessene Restfreiheitsgrade nach dem Löschen von Begriffen aus einem Modell

Ich denke über die Diskussion um diese Frage und insbesondere über Frank Harrells Kommentar nach, dass die Varianzschätzung in einem reduzierten Modell (dh einer, aus der eine Reihe von erklärenden Variablen getestet und verworfen wurden) Yes allgemeine Freiheitsgrade verwenden sollte . Professor Harrell weist darauf hin, dass dies den verbleibenden …

27 r regression model-selection regression-strategies

2

Welche praktischen Auswirkungen hat das Schätzen in einem mehrstufigen Modell im Vergleich zum Nichtschätzen von Korrelationsparametern für zufällige Effekte?

Welche praktischen und interpretationsbezogenen Auswirkungen hat das Schätzen in einem mehrstufigen Modell im Vergleich zum Nichtschätzen von Korrelationsparametern für zufällige Effekte? Der praktische Grund, dies zu erfragen, ist, dass es im früheren Framework in R keine implementierte Methode zum Schätzen von p-Werten über MCMC-Techniken gibt, wenn Schätzungen im Modell der …

27 r mixed-model lme4-nlme random-effects-model

5

Beispielberichte für eine Mixed-Model-Analyse unter Verwendung von Lmer in Biologie, Psychologie und Medizin?

Da der allgemeine Konsens darin zu bestehen scheint, gemischte Modelle über lmer()in R anstelle der klassischen ANOVA zu verwenden (aus den häufig genannten Gründen, wie unsymmetrische Designs, gekreuzte Zufallseffekte usw.), möchte ich es mit meinen Daten versuchen. Ich befürchte jedoch, dass ich diesen Ansatz meinem Vorgesetzten (der am Ende eine …

27 r mixed-model repeated-measures lme4-nlme references

Als «r» getaggte Fragen