Statistiken und Big Data random-forest

1

Warum sind meine zufälligen Waldergebnisse so variabel?

Ich versuche, die Fähigkeit von Random Forest zu testen, Stichproben zwischen zwei Gruppen zu klassifizieren. Es gibt 54 Stichproben und eine unterschiedliche Anzahl von Variablen, die zur Klassifizierung verwendet werden. Ich habe mich gefragt, warum die Out-of-Bag-Schätzungen (OOB) bis zu 5% voneinander abweichen können, selbst wenn ich 50.000 Bäume verwende. …

10 machine-learning random-forest

1

Zufällige Waldregression zur Vorhersage von Zeitreihen

Ich versuche, mithilfe der RF-Regression Vorhersagen über die Leistung einer Papierfabrik zu treffen. Ich habe minutenweise Daten für die Eingaben (Rate und Menge des eingedrungenen Holzzellstoffs usw.) sowie für die Leistung der Maschine (produziertes Papier, von der Maschine aufgenommene Leistung) und möchte Vorhersagen für 10 Minuten treffen voraus auf die …

10 time-series forecasting cross-validation random-forest autoregressive

3

RBF SVM-Anwendungsfälle (vs. logistische Regression und zufällige Gesamtstruktur)

Support Vector Machines mit Radial-Base-Funktionskernel ist ein universell beaufsichtigter Klassifikator. Obwohl ich die theoretischen Grundlagen für diese SVMs und ihre Stärken kenne, sind mir keine Fälle bekannt, in denen sie die bevorzugte Methode sind. Gibt es also eine Klasse von Problemen, bei denen RBF-SVMs anderen ML-Techniken überlegen sind? (Entweder in …

10 machine-learning logistic classification svm random-forest

1

Erfordert die Modellierung mit zufälligen Wäldern eine Kreuzvalidierung?

Soweit ich gesehen habe, neigen die Meinungen dazu dazu. Best Practice würde sicherlich die Verwendung einer Kreuzvalidierung vorschreiben (insbesondere beim Vergleich von RFs mit anderen Algorithmen im selben Datensatz). Andererseits gibt die ursprüngliche Quelle an, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, ein ausreichender Indikator für …

10 cross-validation random-forest overfitting out-of-sample

1

Zufälliger Wald gegen Adaboost

In Abschnitt 7 der Arbeit Random Forests (Breiman, 1999) stellt der Autor die folgende Vermutung auf: "Adaboost ist ein zufälliger Wald". Hat jemand dies bewiesen oder widerlegt? Was wurde getan, um diesen Beitrag von 1999 zu beweisen oder zu widerlegen?

10 machine-learning random-forest boosting

1

Random Forest Probabilistic Prediction gegen Mehrheitswahl

Scikit Learn scheint für die Modellaggregationstechnik eine probabilistische Vorhersage anstelle einer Mehrheitsentscheidung zu verwenden, ohne zu erklären, warum (1.9.2.1. Random Forests). Gibt es eine klare Erklärung dafür, warum? Gibt es außerdem ein gutes Papier oder einen Übersichtsartikel für die verschiedenen Modellaggregationstechniken, die für das Absacken von Random Forest verwendet werden …

10 random-forest python scikit-learn aggregation bagging

1

Random Forest kann nicht überpassen?

Ich habe Literatur gelesen, die zufällige Wälder nicht überpassen können. Das klingt zwar großartig, scheint aber zu schön, um wahr zu sein. Ist es möglich, dass HF's überanpassen?

10 random-forest overfitting

2

Wie ändere ich den Schwellenwert für die Klassifizierung in R randomForests?

In der gesamten Literatur zur Modellierung der Artenverteilung wird vorgeschlagen, dass bei der Vorhersage des Vorhandenseins / Nichtvorhandenseins einer Art unter Verwendung eines Modells, das Wahrscheinlichkeiten (z. B. RandomForests) ausgibt, die Wahl der Schwellenwahrscheinlichkeit, nach der eine Art tatsächlich als Vorhandensein oder Nichtvorhandensein klassifiziert werden soll, wichtig ist und sollte …

10 r classification random-forest threshold

1

Caret varImp für das randomForest-Modell

Ich habe Probleme zu verstehen, wie die varImpFunktion für ein randomForest-Modell mit dem caretPaket funktioniert . Im folgenden Beispiel erhält das Merkmal var3 mithilfe der Caret- varImpFunktion die Bedeutung Null , das zugrunde liegende randomForest-Endmodell hat jedoch für das Merkmal var3 eine Bedeutung ungleich Null. Warum ist das so? require(randomForest) …

10 r caret random-forest

1

Wie baue ich einen innovativen Ausreißer bei Beobachtung 48 in mein ARIMA-Modell ein?

Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus. Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen . Wie kann ich diesen Ausreißer in mein …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

3

Grenzen zu baumbasierten Ensemble-Methoden bei kleinen n, großen p-Problemen?

Baumbasierte Ensemble-Methoden wie Random Forest und nachfolgende Ableitungen (z. B. bedingter Wald) sollen bei sogenannten "kleinen n , großen p " -Problemen nützlich sein , um die relative variable Bedeutung zu identifizieren. Dies scheint zwar der Fall zu sein, aber meine Frage ist, wie weit diese Fähigkeit gehen kann. Kann …

10 random-forest small-sample ensemble

1

randomForest und variabler Wichtigkeitsfehler?

Ich verstehe den Unterschied zwischen rfobject$importanceund importance(rfobject)in der Spalte MeanDecreaseAccuracy nicht. Beispiel: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 …

10 r random-forest importance

4

Gibt es eine Möglichkeit, die Kreuzvalidierung zu verwenden, um eine Variablen- / Merkmalsauswahl in R durchzuführen?

Ich habe einen Datensatz mit ungefähr 70 Variablen, die ich reduzieren möchte. Ich möchte den Lebenslauf verwenden, um die nützlichsten Variablen auf folgende Weise zu finden. 1) Wählen Sie zufällig etwa 20 Variablen aus. 2) Verwenden Sie stepwise/ LASSO/ lars/ etc, um die wichtigsten Variablen auszuwählen. 3) Wiederholen Sie ~ …

10 r cross-validation feature-selection random-forest stepwise-regression

6

Vergleichen Sie das R-Quadrat aus zwei verschiedenen Random Forest-Modellen

Ich verwende das randomForest-Paket in R, um ein zufälliges Waldmodell zu entwickeln und zu versuchen, ein kontinuierliches Ergebnis in einem "breiten" Datensatz mit mehr Prädiktoren als Stichproben zu erklären. Insbesondere passe ich ein RF-Modell an, mit dem das Verfahren aus einem Satz von ~ 75 Prädiktorvariablen auswählen kann, die ich …

10 r machine-learning hypothesis-testing model-selection random-forest

1

Ist es sinnvoll, die Funktionsauswahl vor Random Forest zu verwenden?

Alles ist im Titel enthalten. Ist es sinnvoll, die Feature-Auswahl zu verwenden, bevor Sie eine zufällige Gesamtstruktur verwenden?

10 machine-learning feature-selection random-forest

Als «random-forest» getaggte Fragen