Statistiken und Big Data r

2

Wie werden gepoolte p-Werte für Tests in mehreren unterstellten Datensätzen ermittelt?

Mit Amelia in R erhielt ich mehrere unterstellte Datensätze. Danach führte ich einen Test mit wiederholten Messungen in SPSS durch. Jetzt möchte ich die Testergebnisse bündeln. Ich weiß, dass ich Rubins Regeln (implementiert durch ein beliebiges Paket mit mehreren Imputationen in R) verwenden kann, um Mittelwerte und Standardfehler zu bündeln, …

11 r spss p-value multiple-imputation pooling

4

Wie wählt man die Anzahl der Bäume in einem verallgemeinerten verstärkten Regressionsmodell?

Gibt es eine Strategie zur Auswahl der Anzahl der Bäume in einem GBM? Insbesondere das ntreesArgument in Rder gbmFunktion. Ich verstehe nicht, warum Sie nicht ntreesden höchsten vernünftigen Wert einstellen sollten . Ich habe festgestellt, dass eine größere Anzahl von Bäumen die Variabilität der Ergebnisse mehrerer GBMs deutlich verringert. Ich …

11 r machine-learning gbm

1

R neuralnet - compute gibt eine konstante Antwort

Ich versuche, das neuralnetPaket von R (Dokumentation hier ) zur Vorhersage zu verwenden. Hier, was ich versuche zu tun: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse …

11 r neural-networks prediction error

2

räumliche Autokorrelation für Zeitreihendaten

Ich habe einen 20-jährigen Datensatz mit einer jährlichen Anzahl von Arten für eine Reihe von Polygonen (~ 200 unregelmäßig geformte, kontinuierliche Polygone). Ich habe eine Regressionsanalyse verwendet, um Trends (Änderung der Anzahl pro Jahr) für jedes Polygon sowie Aggregationen von Polygondaten basierend auf Verwaltungsgrenzen abzuleiten. Ich bin sicher, dass die …

11 r time-series correlation spatial spatio-temporal

2

QQ-Plot-Interpretation

Betrachten Sie den folgenden Code und die folgende Ausgabe: par(mfrow=c(3,2)) # generate random data from weibull distribution x = rweibull(20, 8, 2) # Quantile-Quantile Plot for different distributions qqPlot(x, "log-normal") qqPlot(x, "normal") qqPlot(x, "exponential", DB = TRUE) qqPlot(x, "cauchy") qqPlot(x, "weibull") qqPlot(x, "logistic") Es scheint, dass das QQ-Diagramm für log-normal …

11 r data-visualization interpretation qq-plot

1

Kostenfunktion zur Validierung von Poisson-Regressionsmodellen

Für Zähldaten, die ich gesammelt habe, verwende ich die Poisson-Regression, um Modelle zu erstellen. Ich mache das mit der glmFunktion in R, wo ich benutze family = "poisson". Um mögliche Modelle zu bewerten (ich habe mehrere Prädiktoren), verwende ich den AIC. So weit, ist es gut. Jetzt möchte ich eine …

11 r generalized-linear-model poisson-distribution

5

Wenn nicht ein Poisson, welche Verteilung ist das dann?

Ich habe einen Datensatz, der die Anzahl der Aktionen enthält, die von Einzelpersonen innerhalb von 7 Tagen ausgeführt wurden. Die spezifische Aktion sollte für diese Frage nicht relevant sein. Hier einige beschreibende Statistiken für den Datensatz: AngebotBedeutenVarianzAnzahl der Beobachtungen0 - 77218.22791696Angebot0- -772Bedeuten18.2Varianz2791Anzahl der Beobachtungen696 \begin{array}{|c|c|} \hline \text{Range} & 0 - …

11 r distributions poisson-distribution mean sample

2

Stichprobe mit Ersatz in R randomForest

Die randomForest-Implementierung erlaubt keine Stichproben über die Anzahl der Beobachtungen hinaus, selbst wenn Stichproben mit Ersatz erstellt werden. Warum ist das? Funktioniert gut: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Was ich machen will; was ich vorhabe zu tun: …

11 r sampling random-forest stratification oversampling

2

Zero-Inflated-Count-Modelle in R: Was ist der wahre Vorteil?

Für die Analyse der Anzahl der nicht aufgeblasenen Vögel möchte ich Modelle mit der Anzahl der nicht aufgeblasenen Vögel unter Verwendung des R-Pakets pscl anwenden . Wenn ich mir jedoch das Beispiel in der Dokumentation für eine der Hauptfunktionen ( ? Zeroinfl ) ansehe , bezweifle ich, was der wahre …

11 r poisson-distribution zero-inflation

1

Gemischte Modell-Mehrfachvergleiche für die Interaktion zwischen kontinuierlichem und kategorialem Prädiktor

Ich möchte verwenden lme4, um eine Regression mit gemischten Effekten anzupassen und multcompdie paarweisen Vergleiche zu berechnen. Ich habe einen komplexen Datensatz mit mehreren kontinuierlichen und kategorialen Prädiktoren, aber meine Frage kann am Beispiel des integrierten ChickWeightDatensatzes demonstriert werden : m <- lmer(weight ~ Time * Diet + (1 | …

11 r mixed-model multiple-comparisons

2

Poisson-Regressionsannahmen und wie man sie in R testet

Ich möchte testen, welche Regression am besten zu meinen Daten passt. Meine abhängige Variable ist eine Zählung und hat viele Nullen. Und ich würde Hilfe brauchen, um zu bestimmen, welches Modell und welche Familie verwendet werden sollen (Poisson oder Quasipoisson oder Poisson-Regression ohne Inflation) und wie die Annahmen getestet werden …

11 r count-data zero-inflation poisson-regression

1

Unterschiedliche Ergebnisse beim Zeichnen von 95% CI-Ellipsen mit ggplot oder dem Ellipsenpaket

Ich möchte die Ergebnisse eines Clusters (erstellt mit protoclust{protoclust}) visualisieren, indem ich Scater-Diagramme für jedes Variablenpaar erstelle, das zum Klassifizieren meiner Daten verwendet wird, nach Klassen färbt und die Ellipsen für das 95% -Konfidenzintervall für jede der Klassen überlappt (um zu überprüfen, welche elipses-Klassen überlappen sich unter jedem Variablenpaar. Ich …

11 r confidence-interval ggplot2 scatterplot

3

Verwendung von Computersimulationen zum besseren Verständnis statistischer Konzepte auf Graduiertenebene

Hallo, ich nehme an einem Abschlusskurs in Statistik teil und wir haben uns mit Teststatistik und anderen Konzepten befasst. Ich bin jedoch oft in der Lage, die Formeln anzuwenden und eine Art Intuition darüber zu entwickeln, wie Dinge funktionieren, aber ich habe oft das Gefühl, dass ich, wenn ich meine …

11 r hypothesis-testing sas simulation computational-statistics

2

Erstellen einer Zeitreihe, die mehrere Beobachtungen für jedes Datum enthält

Ich versuche, eine Zeitreihe auf vierteljährliche Stichprobendaten (tierische Biomasse) über einen Zeitraum von 10 Jahren mit 3 Wiederholungen pro Quartal anzuwenden. Also 40 Daten, aber insgesamt 120 Beobachtungen. Ich habe SARIMA'a in Shumway und Stoffers Zeitreihenanalyse und ihren Anwendungen gelesen und Woodward et al. Die angewandte Zeitreihenanalyse von al., und …

11 r time-series

1

Können diese Daten zu einem Anteil für ein Binomial-GLM zusammengefasst werden?

Wir haben 60 Personen gebeten, so viele Restaurant-Franchise-Unternehmen wie möglich in Atlanta aufzulisten. Die Gesamtliste umfasste über 70 Restaurants, aber wir haben diejenigen eliminiert, die von weniger als 10% der Bevölkerung erwähnt wurden, und haben 45 übrig gelassen. Für diese 45 haben wir den Anteil der Informanten berechnet, die das …

11 r generalized-linear-model

Als «r» getaggte Fragen