Statistiken und Big Data random-forest

2

RandomForest negative Werte mit variabler Wichtigkeit

Ich frage mich, ob es eine gute Idee ist, diese Variablen mit einem negativen Variablen-Wichtigkeitswert ("% IncMSE") in einem Regressionskontext zu entfernen. Und wenn es mir eine bessere Vorhersage gibt? Was denkst du?

10 machine-learning feature-selection random-forest importance

1

R lineare Regression kategoriale Variable "versteckter" Wert

Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

Zufällige Gesamtstruktur für gruppierte Daten

Ich verwende zufällige Gesamtstruktur für hochdimensionale gruppierte Daten (50 numerische Eingabevariablen), die eine hierachische Struktur haben. Die Daten wurden mit 6 Replikationen an 30 Positionen von 70 verschiedenen Objekten gesammelt, was zu 12600 Datenpunkten führte, die nicht unabhängig sind. Es scheint, dass eine zufällige Gesamtstruktur die Daten überpasst, da der …

10 regression random-forest

2

Ist die Autokorrelation in einem überwachten Lerndatensatz ein Problem?

Stellen Sie sich das folgende Problem vor. Ich habe wöchentliche Schnappschüsse von Preisdaten von K Artikeln sowie von verschiedenen Funktionen / Prädiktoren. Ich möchte vorhersagen, um wie viel sich der Preis in 2 Jahren ändern wird. Ich setze meinen Datensatz wie folgt zusammen: Jede Zeile besteht aus Funktionen für jeden …

10 time-series random-forest autocorrelation supervised-learning nonlinear

2

Untersuchung der Unterschiede zwischen Populationen

Angenommen, wir haben eine Stichprobe aus zwei Populationen: Aund B. Nehmen wir an, diese Populationen bestehen aus Individuen und wir beschreiben Individuen anhand von Merkmalen. Einige dieser Funktionen sind kategorisch (z. B. fahren sie zur Arbeit?) Und andere numerisch (z. B. ihre Höhe). Nennen wir diese Funktionen: . Wir sammeln …

9 anova random-forest cart group-differences

1

Algebraische Klassifikatoren, weitere Informationen?

Ich habe algebraische Klassifikatoren gelesen : einen generischen Ansatz für schnelle Kreuzvalidierung, Online-Training und paralleles Training und war von der Leistung der abgeleiteten Algorithmen begeistert. Es scheint jedoch, dass es jenseits von Naive Bayes (und GBMs) nicht viele Algorithmen gibt, die an das Framework angepasst sind. Gibt es andere Papiere, …

9 cross-validation references random-forest computational-statistics naive-bayes

2

Neuere Beobachtungen in der Regression stärker gewichten

Wie ordne ich neueren Beobachtungen in R mehr Gewicht zu? Ich nehme dies als häufig gestellte Frage oder Wunsch an, aber es fällt mir schwer, genau herauszufinden, wie ich dies umsetzen soll. Ich habe versucht, viel danach zu suchen, aber ich kann kein gutes praktisches Beispiel finden. In meinem Beispiel …

9 r time-series regression random-forest

2

Out-of-Bag-Fehlerschätzung zum Boosten?

In Random Forest wird jeder Baum parallel auf einer eindeutigen Boostrap-Stichprobe der Daten gezüchtet. Da erwartet wird, dass jede Boostrap-Probe ungefähr 63% der eindeutigen Beobachtungen enthält, bleiben ungefähr 37% der Beobachtungen aus, die zum Testen des Baums verwendet werden können. Nun scheint es bei Stochastic Gradient Boosting auch eine -Schätzung …

9 machine-learning cross-validation data-mining random-forest boosting

1

Klassifizierungsschwelle in RandomForest-sklearn

1) Wie kann ich den Klassifizierungsschwellenwert (ich denke, er ist standardmäßig 0,5) in RandomForest in sklearn ändern? 2) Wie kann ich in sklearn eine Unterprobe machen? 3) Ich habe das folgende Ergebnis vom RandomForest-Klassifikator: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 …

9 classification random-forest precision-recall unbalanced-classes

1

Können zufällige Wälder viel besser abschneiden als der Testfehler von 2,8% bei MNIST?

Ich habe keine Literatur zur Anwendung von Random Forests auf MNIST, CIFAR, STL-10 usw. gefunden, daher dachte ich, ich würde sie selbst mit dem permutationsinvarianten MNIST ausprobieren. In R habe ich versucht: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Dies lief 2 Stunden und ergab einen Testfehler von 2,8%. Ich habe auch …

9 r machine-learning classification random-forest scikit-learn

1

Interpretation der Fehlerschätzung für RandomForestRegressor

Ich verwende den RandomForest-Regressor für meine Daten und konnte feststellen, dass der oob-Wert 0,83 betrug. Ich bin mir nicht sicher, wie es dazu kam. Ich meine, meine Ziele sind hohe Werte im Bereich von 10 ^ 7. Wenn es also MSE ist, sollte es viel höher sein. Ich verstehe nicht, …

9 regression random-forest

1

Vorhersage mit randomForest (R), wenn bei einigen Eingaben Werte fehlen (NA)

Ich habe ein feines randomForestKlassifizierungsmodell, das ich in einer Anwendung verwenden möchte, die die Klasse eines neuen Falls vorhersagt. Dem neuen Fall fehlen zwangsläufig Werte. Predict funktioniert als solches für NAs nicht. Wie soll ich das dann machen? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) …

9 r random-forest prediction missing-data

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Parametrisches, semiparametrisches und nichtparametrisches Bootstrapping für gemischte Modelle

Die folgenden Transplantate stammen aus diesem Artikel . Ich bin ein Neuling im Bootstrap und versuche, das parametrische, semiparametrische und nichtparametrische Bootstrapping-Bootstrapping für ein lineares gemischtes Modell mit R bootPaket zu implementieren. R-Code Hier ist mein RCode: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

3

Antwortverteilungsabhängige Verzerrung bei der zufälligen Waldregression

Ich verwende das randomForest-Paket in R (R-Version 2.13.1, randomForest-Version 4.6-2) für die Regression und habe eine signifikante Verzerrung in meinen Ergebnissen festgestellt: Der Vorhersagefehler hängt vom Wert der Antwortvariablen ab. Hohe Werte werden unterprognostiziert und niedrige Werte werden überprognostiziert. Zuerst vermutete ich, dass dies eine Folge meiner Daten war, aber …

9 r regression random-forest

Als «random-forest» getaggte Fragen