Statistiken und Big Data r

6

So führen Sie einen Test mit R durch, um festzustellen, ob die Daten der Normalverteilung entsprechen

Ich habe einen Datensatz mit folgender Struktur: a word | number of occurrence of a word in a document | a document id Wie kann ich einen Test für die Normalverteilung in R durchführen? Wahrscheinlich ist es eine einfache Frage, aber ich bin ein R-Neuling.

44 r distributions normality-assumption

6

Wie vermeide ich das Überlappen von Beschriftungen in einem R-Plot? [geschlossen]

Ich versuche, ein ziemlich einfaches Streudiagramm in R zu beschriften. Dies ist, was ich benutze: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Das Ergebnis ist mittelmäßig, wie Sie sehen können (zum Vergrößern klicken): Ich habe versucht, dies mit der textxyFunktion zu kompensieren , aber es ist nicht besser . Das …

44 r data-visualization scatterplot

4

Wie vergleiche ich zwei Zeitreihen statistisch?

Ich habe zwei Zeitreihen, die in der folgenden Darstellung gezeigt werden: Der Plot zeigt die vollständigen Details beider Zeitreihen, aber ich kann ihn bei Bedarf leicht auf die zufälligen Beobachtungen reduzieren. Meine Frage ist: Mit welchen statistischen Methoden kann ich die Unterschiede zwischen den Zeitreihen bewerten? Ich weiß, dass dies …

43 r time-series

2

Verschiedene Möglichkeiten, Interaktionsbegriffe in lm zu schreiben?

Ich habe eine Frage, wie eine Interaktion in einem Regressionsmodell am besten spezifiziert werden kann. Betrachten Sie die folgenden Daten: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), …

42 r regression interaction

2

Verwenden von lmer für lineare Mischeffektmodelle mit wiederholten Messungen

EDIT 2: Ursprünglich dachte ich, ich müsste eine Zweifaktor-ANOVA mit wiederholten Messungen für einen Faktor durchführen, aber jetzt denke ich, dass ein lineares Mischeffektmodell für meine Daten besser funktioniert. Ich glaube, ich weiß fast, was passieren muss, aber ich bin immer noch durch einige Punkte verwirrt. Die Experimente, die ich …

41 r anova mixed-model repeated-measures lme4-nlme

4

OpenBugs vs. JAGS

Ich werde eine Umgebung im BUGS-Stil ausprobieren, um Bayes'sche Modelle zu schätzen. Gibt es wichtige Vorteile bei der Auswahl zwischen OpenBugs oder JAGS? Wird das eine in absehbarer Zeit das andere ersetzen? Ich werde den ausgewählten Gibbs-Sampler mit R verwenden. Ich habe noch keine spezifische Anwendung, sondern entscheide, welche ich …

41 r software bugs jags gibbs

1

Regression: Variablen transformieren

Müssen Sie beim Transformieren von Variablen alle dieselbe Transformation verwenden? Kann ich zum Beispiel unterschiedlich transformierte Variablen auswählen, wie in: Sei Alter, Beschäftigungsdauer, Aufenthaltsdauer und Einkommen.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Oder müssen Sie mit Ihren Transformationen konsistent sein und alle dieselben verwenden? Wie in: Y = B1*log(x1) …

41 r regression logistic data-transformation

5

Warnung in R - Chi-Quadrat-Näherung ist möglicherweise falsch

Ich habe Daten, die die Ergebnisse der Feuerwehr-Aufnahmeprüfungen zeigen. Ich teste die Hypothese, dass Prüfungsergebnisse und ethnische Zugehörigkeit nicht voneinander unabhängig sind. Um dies zu testen, führte ich einen Pearson-Chi-Quadrat-Test in R durch. Die Ergebnisse zeigen, was ich erwartet hatte, aber es wurde die Warnung " In chisq.test(a) : Chi-squared …

40 r categorical-data chi-squared small-sample error-message

3

Wie kann man die Ergebnisse eines Lassos mit glmnet darstellen?

Ich würde gerne Prädiktoren für eine stetige abhängige Variable aus einer Menge von 30 unabhängigen Variablen finden. Ich verwende die Lasso-Regression, wie sie im glmnet- Paket in R implementiert ist. Hier ist ein Dummy-Code: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) …

40 r multiple-regression lasso glmnet communication

2

Wie lese ich Cooks Entfernungsdiagramme?

Weiß jemand, wie man herausfindet, ob die Punkte 7, 16 und 29 Einflusspunkte sind oder nicht? Ich habe irgendwo gelesen, dass Cooks Entfernung kleiner als 1 ist, sie aber nicht. Habe ich recht?

40 r regression residuals diagnostic cooks-distance

1

Wie werden wichtige Hauptkomponenten mithilfe des Bootstrapping- oder Monte-Carlo-Ansatzes ermittelt?

Ich bin daran interessiert, die Anzahl signifikanter Muster zu bestimmen, die aus einer Hauptkomponentenanalyse (PCA) oder einer empirischen Orthogonalfunktionsanalyse (EOF) hervorgehen. Ich bin besonders daran interessiert, diese Methode auf Klimadaten anzuwenden. Das Datenfeld ist eine MxN-Matrix, wobei M die Zeitdimension (z. B. Tage) und N die räumliche Dimension (z. B. …

40 r pca bootstrap monte-carlo

5

Konfidenzintervall für Median

Ich muss einen 95% -KI auf dem Median und anderen Perzentilen finden. Ich weiß nicht, wie ich das angehen soll. Ich benutze hauptsächlich R als Programmierwerkzeug.

40 r confidence-interval median

2

Messungen von unterschiedlicher Bedeutung in zufälligen Wäldern

Ich habe mit zufälligen Wäldern für die Regression herumgespielt und habe Schwierigkeiten, genau herauszufinden, was die beiden wichtigen Maße bedeuten und wie sie interpretiert werden sollten. Die importance()Funktion gibt für jede Variable zwei Werte an: %IncMSEund IncNodePurity. Gibt es einfache Interpretationen für diese 2 Werte? Ist dies IncNodePurityinsbesondere einfach der …

40 r machine-learning random-forest importance

3

Wie werden F- und p-Werte in ANOVA interpretiert?

Ich bin neu in der Statistik und beschäftige mich derzeit mit ANOVA. Ich führe einen ANOVA-Test in R mit aov(dependendVar ~ IndependendVar) Ich bekomme unter anderem einen F-Wert und einen p-Wert. Meine Nullhypothese ( ) lautet, dass alle Gruppenmittelwerte gleich sind.H0H0H_0 Es gibt viele Informationen darüber, wie F berechnet wird …

40 r anova interpretation

4

Logistische Regression in R (Odds Ratio)

Ich versuche eine logistische Regressionsanalyse durchzuführen R. Ich habe Kurse besucht, die dieses Material mit STATA behandeln. Ich finde es sehr schwierig, die Funktionalität in zu replizieren R. Ist es in diesem Bereich ausgereift? Es scheint wenig Dokumentation oder Anleitung zu geben. Die Erstellung der Odds Ratio-Ausgabe erfordert anscheinend die …

40 r logistic odds-ratio

Als «r» getaggte Fragen