Statistiken und Big Data r

2

Unterschiedliche Ergebnisse von randomForest über caret und das Basispaket randomForest

Ich bin etwas verwirrt: Wie können sich die Ergebnisse eines trainierten Modells per Caret vom Modell in der Originalverpackung unterscheiden? Ich habe gelesen, ob vor der Vorhersage mit FinalModel von RandomForest mit Caret-Paket eine Vorverarbeitung erforderlich ist. aber ich benutze hier keine vorverarbeitung. Ich habe verschiedene Zufallswälder trainiert, indem ich …

14 r machine-learning random-forest caret train

1

Von exp (Koeffizienten) zu Odds Ratio und deren Interpretation in Logistic Regression mit Faktoren

Ich führte eine lineare Regression der Akzeptanz im College durch, die sich nach den SAT-Werten und dem familiären / ethnischen Hintergrund richtete. Die Daten sind fiktiv. Dies ist ein Follow-up zu einer vorherigen Frage, die bereits beantwortet wurde. Die Frage konzentriert sich auf die Erfassung und Interpretation von Quotenverhältnissen, wenn …

14 r regression logistic

3

Wie berechnet man die Überlappung zwischen den empirischen Wahrscheinlichkeitsdichten?

Ich suche nach einer Methode zur Berechnung der Überlappungsfläche zwischen zwei Kerndichteschätzungen in R als Maß für die Ähnlichkeit zwischen zwei Stichproben. Um dies zu verdeutlichen, müsste ich im folgenden Beispiel die Fläche des violett überlappenden Bereichs quantifizieren: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) …

14 r probability pdf kernel-smoothing

1

Likelihood-Ratio-Test - lmer R - Nicht verschachtelte Modelle

Ich überprüfe gerade einige Arbeiten und bin auf Folgendes gestoßen, was mir falsch erscheint. Mit lmer werden zwei gemischte Modelle (in R) montiert. Die Modelle sind nicht verschachtelt und werden durch Likelihood-Ratio-Tests verglichen. Kurz gesagt, hier ist ein reproduzierbares Beispiel für das, was ich habe: set.seed(105) Resp = rnorm(100) A …

14 r lme4-nlme likelihood-ratio nested-models

3

Kann ich eine Normalverteilung aus dem Stichprobenumfang und den Min- und Max-Werten rekonstruieren? Ich kann den Mittelpunkt verwenden, um den Mittelwert darzustellen

Ich weiß, dass dies statistisch gesehen vielleicht ein bisschen blöd ist, aber das ist mein Problem. Ich habe viele Bereichsdaten, das heißt das Minimum, das Maximum und die Stichprobengröße einer Variablen. Für einige dieser Daten habe ich auch einen Mittelwert, aber nicht viele. Ich möchte diese Bereiche miteinander vergleichen, um …

14 r normal-distribution estimation missing-data order-statistics

3

Gewichtung neuerer Daten im Random Forest-Modell

Ich trainiere ein Klassifizierungsmodell mit Random Forest, um zwischen 6 Kategorien zu unterscheiden. Meine Transaktionsdaten umfassen ungefähr 60.000 Beobachtungen und 35 Variablen. Hier ist ein Beispiel, wie es ungefähr aussieht. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 …

14 r machine-learning classification random-forest

1

Wie zeichnet man Zufallsstichproben aus einer nicht parametrisch geschätzten Verteilung?

Ich habe eine Stichprobe von 100 Punkten, die kontinuierlich und eindimensional sind. Ich habe seine nicht-parametrische Dichte mit Hilfe von Kernel-Methoden geschätzt. Wie kann ich Zufallsstichproben aus dieser geschätzten Verteilung ziehen?

14 r sampling kernel-smoothing

3

Verständnis des Konfidenzbandes aus einer Polynomregression

Ich versuche, das Ergebnis zu verstehen, das ich in meiner Grafik unten sehe. Normalerweise verwende ich Excel und erhalte eine lineare Regressionslinie, aber im folgenden Fall verwende ich R und erhalte eine polynomielle Regression mit dem Befehl: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Meine Fragen beschränken sich also auf Folgendes: …

14 r regression data-visualization outliers

3

Regressionsbaumalgorithmus mit linearen Regressionsmodellen in jedem Blatt

Kurzversion: Ich suche ein R-Paket, das Entscheidungsbäume erstellen kann, während jedes Blatt im Entscheidungsbaum ein vollständiges lineares Regressionsmodell ist. AFAIK, die Bibliothek rparterstellt Entscheidungsbäume, in denen die abhängige Variable in jedem Blatt konstant ist. Gibt es eine andere Bibliothek (oder eine rpartEinstellung, die mir nicht bekannt ist), die solche Bäume …

14 r regression rpart cart

1

Die beste Möglichkeit, Beziehungen aus einem multiplen linearen Modell visuell darzustellen

Ich habe ein lineares Modell mit ungefähr 6 Prädiktoren und werde die Schätzungen, F-Werte, p-Werte usw. präsentieren. Ich habe mich jedoch gefragt, was das beste visuelle Diagramm wäre, um den individuellen Effekt eines einzelnen Prädiktors darzustellen die Antwortvariable? Streudiagramm? Bedingte Handlung? Effektplot? etc? Wie würde ich diese Handlung interpretieren? Ich …

14 r regression data-visualization multiple-regression partial-plot

1

Regression nichtlinearer Mischeffekte in R

Überraschenderweise konnte ich mit Google keine Antwort auf die folgende Frage finden: Ich habe einige biologische Daten von mehreren Personen, die mit der Zeit ein grob sigmoides Wachstumsverhalten zeigen. Daher möchte ich es mit einem logistischen Standardwachstum modellieren P(t) = k*p0*exp(r*t) / (k+p0*(exp(r*t)-1)) wobei p0 der Startwert bei t = …

14 r nonlinear-regression mixed-model growth-model

1

Minimiert ein Median-unvoreingenommene-Schätzer die mittlere absolute Abweichung?

Dies ist eine Folgefrage, aber auch eine andere Frage als meine vorherige . Ich habe auf Wikipedia gelesen, dass " ein median-unverzerrter Schätzer das Risiko in Bezug auf die von Laplace beobachtete absolute Abweichungsverlustfunktion minimiert ". Meine Monte-Carlo-Simulationsergebnisse stützen dieses Argument jedoch nicht. Ich gehe davon aus einer Probe aus …

14 r unbiased-estimator median lognormal mad

4

Ljung-Box-Statistik für ARIMA-Residuen in R: verwirrende Testergebnisse

Ich habe eine Zeitreihe, für die ich eine Prognose erstellen möchte und für die ich das saisonale Modell ARIMA (0,0,0) (0,1,0) [12] (= fit2) verwendet habe. Es unterscheidet sich von dem, was R mit auto.arima vorgeschlagen hat (R berechnete ARIMA (0,1,1) (0,1,0) [12] wäre besser, ich nannte es fit1). In …

14 r time-series statistical-significance arima residuals

1

Ist dies eine akzeptable Methode, um Modelle mit gemischten Effekten mit lme4 in R zu analysieren?

Ich habe einen unsymmetrischen Datensatz mit wiederholten Messungen zur Analyse und ich habe gelesen, dass die Art und Weise, wie die meisten statistischen Pakete mit ANOVA umgehen (dh die Summe der Quadrate des Typs III), falsch ist. Daher würde ich gerne ein gemischtes Effektmodell verwenden, um diese Daten zu analysieren. …

14 r mixed-model lme4-nlme

5

KNN Imputation R-Pakete

Ich suche ein KNN-Anrechnungspaket. Ich habe mir das Imputationspaket angesehen ( http://cran.r-project.org/web/packages/imputation/imputation.pdf) ) angesehen, aber aus irgendeinem Grund scheint die KNN-Impute-Funktion (auch wenn dem Beispiel aus der Beschreibung folge) nur zu funktionieren Nullwerte zu unterstellen (wie unten). Ich habe mich umgesehen, kann aber noch nichts finden und habe mich daher …

14 r k-nearest-neighbour data-imputation

Als «r» getaggte Fragen