Als «random-forest» getaggte Fragen

Random Forest ist eine maschinelle Lernmethode, die auf der Kombination der Ergebnisse vieler Entscheidungsbäume basiert.

1
Warum sind meine zufälligen Waldergebnisse so variabel?
Ich versuche, die Fähigkeit von Random Forest zu testen, Stichproben zwischen zwei Gruppen zu klassifizieren. Es gibt 54 Stichproben und eine unterschiedliche Anzahl von Variablen, die zur Klassifizierung verwendet werden. Ich habe mich gefragt, warum die Out-of-Bag-Schätzungen (OOB) bis zu 5% voneinander abweichen können, selbst wenn ich 50.000 Bäume verwende. …

1
Zufällige Waldregression zur Vorhersage von Zeitreihen
Ich versuche, mithilfe der RF-Regression Vorhersagen über die Leistung einer Papierfabrik zu treffen. Ich habe minutenweise Daten für die Eingaben (Rate und Menge des eingedrungenen Holzzellstoffs usw.) sowie für die Leistung der Maschine (produziertes Papier, von der Maschine aufgenommene Leistung) und möchte Vorhersagen für 10 Minuten treffen voraus auf die …

3
RBF SVM-Anwendungsfälle (vs. logistische Regression und zufällige Gesamtstruktur)
Support Vector Machines mit Radial-Base-Funktionskernel ist ein universell beaufsichtigter Klassifikator. Obwohl ich die theoretischen Grundlagen für diese SVMs und ihre Stärken kenne, sind mir keine Fälle bekannt, in denen sie die bevorzugte Methode sind. Gibt es also eine Klasse von Problemen, bei denen RBF-SVMs anderen ML-Techniken überlegen sind? (Entweder in …

1
Erfordert die Modellierung mit zufälligen Wäldern eine Kreuzvalidierung?
Soweit ich gesehen habe, neigen die Meinungen dazu dazu. Best Practice würde sicherlich die Verwendung einer Kreuzvalidierung vorschreiben (insbesondere beim Vergleich von RFs mit anderen Algorithmen im selben Datensatz). Andererseits gibt die ursprüngliche Quelle an, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, ein ausreichender Indikator für …

1
Zufälliger Wald gegen Adaboost
In Abschnitt 7 der Arbeit Random Forests (Breiman, 1999) stellt der Autor die folgende Vermutung auf: "Adaboost ist ein zufälliger Wald". Hat jemand dies bewiesen oder widerlegt? Was wurde getan, um diesen Beitrag von 1999 zu beweisen oder zu widerlegen?

1
Random Forest Probabilistic Prediction gegen Mehrheitswahl
Scikit Learn scheint für die Modellaggregationstechnik eine probabilistische Vorhersage anstelle einer Mehrheitsentscheidung zu verwenden, ohne zu erklären, warum (1.9.2.1. Random Forests). Gibt es eine klare Erklärung dafür, warum? Gibt es außerdem ein gutes Papier oder einen Übersichtsartikel für die verschiedenen Modellaggregationstechniken, die für das Absacken von Random Forest verwendet werden …


2
Wie ändere ich den Schwellenwert für die Klassifizierung in R randomForests?
In der gesamten Literatur zur Modellierung der Artenverteilung wird vorgeschlagen, dass bei der Vorhersage des Vorhandenseins / Nichtvorhandenseins einer Art unter Verwendung eines Modells, das Wahrscheinlichkeiten (z. B. RandomForests) ausgibt, die Wahl der Schwellenwahrscheinlichkeit, nach der eine Art tatsächlich als Vorhandensein oder Nichtvorhandensein klassifiziert werden soll, wichtig ist und sollte …

1
Caret varImp für das randomForest-Modell
Ich habe Probleme zu verstehen, wie die varImpFunktion für ein randomForest-Modell mit dem caretPaket funktioniert . Im folgenden Beispiel erhält das Merkmal var3 mithilfe der Caret- varImpFunktion die Bedeutung Null , das zugrunde liegende randomForest-Endmodell hat jedoch für das Merkmal var3 eine Bedeutung ungleich Null. Warum ist das so? require(randomForest) …
10 r  caret  random-forest 

1
Wie baue ich einen innovativen Ausreißer bei Beobachtung 48 in mein ARIMA-Modell ein?
Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus. Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen . Wie kann ich diesen Ausreißer in mein …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


1
randomForest und variabler Wichtigkeitsfehler?
Ich verstehe den Unterschied zwischen rfobject$importanceund importance(rfobject)in der Spalte MeanDecreaseAccuracy nicht. Beispiel: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 …

4
Gibt es eine Möglichkeit, die Kreuzvalidierung zu verwenden, um eine Variablen- / Merkmalsauswahl in R durchzuführen?
Ich habe einen Datensatz mit ungefähr 70 Variablen, die ich reduzieren möchte. Ich möchte den Lebenslauf verwenden, um die nützlichsten Variablen auf folgende Weise zu finden. 1) Wählen Sie zufällig etwa 20 Variablen aus. 2) Verwenden Sie stepwise/ LASSO/ lars/ etc, um die wichtigsten Variablen auszuwählen. 3) Wiederholen Sie ~ …

6
Vergleichen Sie das R-Quadrat aus zwei verschiedenen Random Forest-Modellen
Ich verwende das randomForest-Paket in R, um ein zufälliges Waldmodell zu entwickeln und zu versuchen, ein kontinuierliches Ergebnis in einem "breiten" Datensatz mit mehr Prädiktoren als Stichproben zu erklären. Insbesondere passe ich ein RF-Modell an, mit dem das Verfahren aus einem Satz von ~ 75 Prädiktorvariablen auswählen kann, die ich …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.