Statistiken und Big Data r

1

Lineare Regression und räumliche Autokorrelation

Ich möchte Baumhöhen in einem bestimmten Gebiet anhand einiger Variablen vorhersagen, die durch Fernerkundung ermittelt wurden. Wie ungefähre Biomasse usw. möchte ich zuerst eine lineare Regression verwenden (ich weiß, dass dies nicht die beste Idee ist, aber ein Muss für mein Projekt). Ich wollte wissen, wie stark sich die räumliche …

13 r multiple-regression spatial autocorrelation

3

Stellen PCA-Komponenten wirklich den Prozentsatz der Varianz dar? Können sie mehr als 100% summieren?

O'Reillys "Maschinelles Lernen für Hacker" besagt, dass jede Hauptkomponente einen Prozentsatz der Varianz darstellt. Ich habe den relevanten Teil der folgenden Seite zitiert (Kapitel 8, S.207). Im Gespräch mit einem anderen Experten stimmten sie darin überein, dass es sich um den Prozentsatz handelt. Die 24 Komponenten summieren sich jedoch auf …

13 r pca

2

Wie erhält man die Ergebnisse eines Tukey-HSD-Post-Hoc-Tests in einer Tabelle mit gruppierten Paaren?

Ich würde gerne einen TukeyHSD-Post-Hoc-Test nach meiner Zwei-Wege-Anova mit R durchführen und eine Tabelle mit den sortierten Paaren erhalten, die nach signifikanten Unterschieden gruppiert sind. (Entschuldigung für die Formulierung, ich bin noch neu mit Statistiken.) Ich hätte gerne so etwas: Also gruppiert mit Sternen oder Buchstaben. Irgendeine Idee? Ich habe …

13 r anova multiple-comparisons post-hoc tukey-hsd

1

Helfen Sie mir, die

Ich versuche hier ein Bayesianisches Logit der Daten durchzuführen . Ich verwende bayesglm()in dem armPaket in R. Die Codierung ist einfach genug: df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) gibt die folgende Ausgabe aus: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) …

13 r bayesian p-value

1

Was ist der Unterschied zwischen wilcox.test und coin :: wilcox_test in R?

Diese beiden Funktionen existieren in R, aber ich kenne ihre Unterschiede nicht. Es scheint, dass sie nur dieselben p-Werte zurückgeben, wenn sie wilcox.testmit correct=FALSEund wilcox_test(im Münzpaket) mit aufrufen distribution="aymptotic". Für andere Werte geben sie andere p-Werte zurück. Gibt außerdem wilcox.testimmer W = 0 für meinen Datensatz zurück, unabhängig von den …

13 r hypothesis-testing p-value wilcoxon-mann-whitney

1

Vorhersagen unter Verwendung von glmnet in R

Ich versuche, einige Daten mit dem glmnetPaket in R zu modellieren . Nehmen wir an, ich habe die folgenden Daten training_x <- data.frame(variable1 = c(1, 2, 3, 2, 3), variable2 = c(1, 2, 3, 4, 5)) y <- c(1, 2, 3, 4, 5) (Dies ist eine Vereinfachung; meine Daten sind …

13 r glmnet

6

Zufällige Gesamtstruktur: Wie gehe ich mit neuen Faktorstufen im Testsatz um?

Ich versuche Vorhersagen mit einem zufälligen Waldmodell in R zu machen. Ich erhalte jedoch Fehler, da einige Faktoren im Testsatz andere Werte haben als im Trainingssatz. Beispielsweise hat ein Faktor Cat_2Werte34, 68, 76 usw. in der Testmenge, die nicht in der Trainingsmenge erscheinen. Leider habe ich keine Kontrolle über das …

13 r categorical-data random-forest

2

Generieren Sie Datenproben aus der Poisson-Regression

Ich habe mich gefragt, wie Sie Daten aus einer Poisson-Regressionsgleichung in R generieren würden. Ich bin irgendwie verwirrt, wie ich das Problem angehen soll. Wenn ich also annehme, dass wir zwei Prädiktoren und X 2 haben, die auf N ( 0 , 1 ) verteilt sindX1X1X_1X2X2X_2N(0,1)N(0,1)N(0,1) . Und der Achsenabschnitt …

13 r regression poisson-distribution simulation

2

Was sind Blocktests?

Als Antwort auf eine Frage zur Modellauswahl in Gegenwart von Multikollinearität schlug Frank Harrell vor : Fügen Sie alle Variablen in das Modell ein, testen Sie jedoch nicht die Auswirkung einer Variablen, die für die Auswirkung konkurrierender Variablen angepasst ist ... Blocktests konkurrierender Variablen sind sehr leistungsfähig, da kollineare Variablen …

13 r model-selection multicollinearity

2

Gradientenabfall vs lm () -Funktion in R?

Ich gehe die Videos in Andrew Ngs kostenlosem Online-Kurs für maschinelles Lernen in Stanford durch. Er beschreibt Gradient Descent als einen Algorithmus zum Lösen linearer Regression und zum Ausführen von Schreibfunktionen in Octave. Vermutlich könnte ich diese Funktionen in R umschreiben, aber meine Frage ist, gibt mir die Funktion lm …

13 r regression machine-learning gradient-descent

3

Ruby als Statistik-Workbench

Dies ist auch eine Frage, die sehr viel mit Python als Statistik-Workbench und mit Excel als Statistik-Workbench zu tun hat . Ich weiß, es gibt eine große Diskussion über Ruby gegen Python, aber das ist nicht der Punkt in dieser Frage. Ich dachte, dass Ruby, der schneller als Python ist …

13 r python software ruby

3

Gibt es eine Formel oder Regel zur Bestimmung der richtigen Größe für einen randomForest?

Ich spiele mit einem randomForest und habe festgestellt, dass das Erhöhen von sampSize im Allgemeinen zu einer besseren Leistung führt. Gibt es eine Regel / Formel / etc, die vorschlägt, wie die optimale Größe von sampSize sein soll, oder handelt es sich um eine Versuchs- und Irrtumssache? Ich denke, eine …

13 r random-forest

2

Analysieren Sie die Proportionen

Ich habe einen Datensatz mit mehreren Anteilen, die sich zu 1 addieren. Ich bin an der Änderung dieser Anteile entlang eines Verlaufs interessiert (siehe unten für Beispieldaten). gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient …

13 r multinomial

2

Interpretation und Validierung eines Cox-Regressionsmodells für proportionale Gefahren unter Verwendung von R in Klartext

Kann mir jemand mein Cox-Modell im Klartext erklären? Ich habe das folgende Cox-Regressionsmodell mithilfe der Funktion an alle meine Daten angepasst cph. Meine Daten werden in einem Objekt namens gespeichert Data. Die Variablen w, xund ysind stetig; zist ein Faktor von zwei Ebenen. Die Zeit wird in Monaten gemessen. Bei …

13 r cross-validation survival cox-model

1

Leistungsberechnungen / Stichprobengröße für die Biomarker-Studie

Wir haben einen potenziellen Biomarker, um vorherzusagen, ob ein Patient Krebs hat oder nicht. Das Biomarker-Testergebnis ist binär positiv oder negativ. Wir möchten ein Gefühl dafür bekommen, wie viele Patienten getestet werden müssen, um festzustellen, ob dieser Biomarker ein guter Prädiktor ist oder nicht. Aus der Lektüre im Internet geht …

13 r power

Als «r» getaggte Fragen