Als «random-forest» getaggte Fragen

Random Forest ist eine maschinelle Lernmethode, die auf der Kombination der Ergebnisse vieler Entscheidungsbäume basiert.

1
Inwiefern unterscheidet sich ein extrem zufälliger Wald von einem zufälligen Wald?
Ist die Umsetzung von ER effizienter (ähnlich Extreme Gradient Boostingwie die Steigerung des Gradienten) - ist der Unterschied aus praktischer Sicht wichtig? Es gibt ein R-Paket, das sie implementiert. Ist es ein neuer Algorithmus, der die "generische" Implementierung (RandomForest-Paket von R) nicht nur hinsichtlich der Effizienz oder auch in einigen …

1
Ist der R-Quadrat-Wert zum Vergleichen von Modellen geeignet?
Ich versuche, das beste Modell zu finden, um die Preise für Automobile vorherzusagen. Dabei verwende ich die Preise und Funktionen, die auf Websites für Kleinanzeigen für Automobile verfügbar sind. Dazu verwendete ich einige Modelle aus der Scikit-Learn-Bibliothek und neuronale Netzwerkmodelle aus Pybrain und Neurolab. Der Ansatz, den ich bisher verwendet …


1
Ist in einer zufälligen Gesamtstruktur% IncMSE größer besser oder schlechter?
Nachdem ich in R ein (Regressions-) Zufallsgesamtstrukturmodell erstellt habe, rf$importancewerden mir durch den Aufruf zwei Kennzahlen für jede Prädiktorvariable %IncMSEund angezeigt IncNodePurity. Ist die Interpretation, dass Prädiktorvariablen mit kleineren %IncMSEWerten vorliegen, wichtiger als Prädiktorvariablen mit größeren %IncMSEWerten? Wie wäre es mit für IncNodePurity?

2
Merkmalsbedeutung bei Dummy-Variablen
Ich versuche zu verstehen, wie ich die Feature-Wichtigkeit einer kategorialen Variablen ermitteln kann, die in Dummy-Variablen zerlegt wurde. Ich benutze scikit-learn, das kategoriale Variablen für Sie nicht so behandelt, wie es R oder H2O tun. Wenn ich eine kategoriale Variable in Dummy-Variablen zerlege, erhalte ich separate Feature-Wichtigkeiten pro Klasse in …

2
Wäre ein Random Forest mit mehreren Ausgängen möglich / sinnvoll?
Random Forests (RFs) ist eine wettbewerbsfähige Datenmodellierungs- / Miningmethode. Ein RF-Modell hat eine Ausgabe - die Ausgabe- / Vorhersagevariable. Der naive Ansatz zur Modellierung mehrerer Ausgänge mit RFs besteht darin, für jede Ausgangsvariable einen RF zu erstellen. Wir haben also N unabhängige Modelle, und wenn es eine Korrelation zwischen Ausgabevariablen …

2
Featureauswahl mit zufälligen Wäldern
Ich habe einen Datensatz mit hauptsächlich finanziellen Variablen (120 Features, 4k-Beispiele), die größtenteils stark korreliert und sehr verrauscht sind (z. B. technische Indikatoren). Daher möchte ich für die spätere Verwendung beim Modelltraining (binäre Klassifizierung) maximal 20-30 auswählen - erhöhen verringern). Ich dachte darüber nach, zufällige Wälder für das Feature-Ranking zu …



5
Wie sollte man bei der Klassifizierung mit zufälligen Wäldern in R die unausgeglichenen Klassengrößen anpassen?
Ich erkunde verschiedene Klassifizierungsmethoden für ein Projekt, an dem ich arbeite, und bin daran interessiert, Random Forests auszuprobieren. Ich versuche mich weiterzubilden und würde mich über jede Hilfe durch die CV-Community freuen. Ich habe meine Daten in Trainings- / Test-Sets aufgeteilt. Durch Experimente mit zufälligen Gesamtstrukturen in R (mit dem …

1
R-Paket für Weighted Random Forest? Klassewt Option?
Ich versuche, Random Forest zu verwenden, um das Ergebnis eines extrem unausgeglichenen Datensatzes vorherzusagen (die Minderheitsklassenrate beträgt nur etwa 1% oder sogar weniger). Da der herkömmliche Random Forest-Algorithmus die Gesamtfehlerrate minimiert, anstatt den Minderheitsklassen besondere Aufmerksamkeit zu widmen, ist er nicht direkt auf unausgeglichene Daten anwendbar. Daher möchte ich die …
16 r  random-forest 

2
Benötigt eine zufällige Gesamtstruktur Eingabevariablen, die skaliert oder zentriert werden sollen?
Meine Eingabevariablen haben unterschiedliche Dimensionen. Einige Variablen sind dezimal, andere hunderte. Müssen diese Eingabevariablen unbedingt zentriert (subtrahiert den Mittelwert) oder skaliert (dividiert durch die Standardabweichung) werden, damit die Daten bei Verwendung einer Zufallsgesamtstruktur dimensionslos werden?


1
Verwendet Breimans zufälliger Wald Informationsgewinn oder Gini-Index?
Ich würde gerne wissen, ob Breimans zufälliger Wald (zufälliger Wald in R randomForest-Paket) als Aufteilungskriterium (Kriterium für die Attributauswahl) Informationsgewinn oder Gini-Index verwendet. Ich habe versucht, es auf http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm und in der Dokumentation für das randomForest-Paket in R herauszufinden. Aber das einzige, was ich gefunden habe, ist, dass der Gini-Index …

1
Gini-Abnahme und Gini-Verunreinigung von Kinderknoten
Ich arbeite an der Wichtigkeitsmessung des Gini-Features für zufällige Gesamtstrukturen. Daher muss ich die Gini-Abnahme der Knotenverunreinigung berechnen. So mache ich das, was zu einem Konflikt mit der Definition führt und andeutet, dass ich mich irgendwo irren muss ... :) Für einen binären Baum kann ich unter Berücksichtigung der Wahrscheinlichkeiten …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.