Ist die Umsetzung von ER effizienter (ähnlich Extreme Gradient Boostingwie die Steigerung des Gradienten) - ist der Unterschied aus praktischer Sicht wichtig? Es gibt ein R-Paket, das sie implementiert. Ist es ein neuer Algorithmus, der die "generische" Implementierung (RandomForest-Paket von R) nicht nur hinsichtlich der Effizienz oder auch in einigen …
Ich versuche, das beste Modell zu finden, um die Preise für Automobile vorherzusagen. Dabei verwende ich die Preise und Funktionen, die auf Websites für Kleinanzeigen für Automobile verfügbar sind. Dazu verwendete ich einige Modelle aus der Scikit-Learn-Bibliothek und neuronale Netzwerkmodelle aus Pybrain und Neurolab. Der Ansatz, den ich bisher verwendet …
Ich arbeite mit vielen Algorithmen: RandomForest, DecisionTrees, NaiveBayes, SVM (Kernel = linear und rbf), KNN, LDA und XGBoost. Alle bis auf SVM waren ziemlich schnell. Dann wurde mir klar, dass die Feature-Skalierung erforderlich ist, um schneller arbeiten zu können. Dann begann ich mich zu fragen, ob ich dasselbe für die …
Nachdem ich in R ein (Regressions-) Zufallsgesamtstrukturmodell erstellt habe, rf$importancewerden mir durch den Aufruf zwei Kennzahlen für jede Prädiktorvariable %IncMSEund angezeigt IncNodePurity. Ist die Interpretation, dass Prädiktorvariablen mit kleineren %IncMSEWerten vorliegen, wichtiger als Prädiktorvariablen mit größeren %IncMSEWerten? Wie wäre es mit für IncNodePurity?
Ich versuche zu verstehen, wie ich die Feature-Wichtigkeit einer kategorialen Variablen ermitteln kann, die in Dummy-Variablen zerlegt wurde. Ich benutze scikit-learn, das kategoriale Variablen für Sie nicht so behandelt, wie es R oder H2O tun. Wenn ich eine kategoriale Variable in Dummy-Variablen zerlege, erhalte ich separate Feature-Wichtigkeiten pro Klasse in …
Random Forests (RFs) ist eine wettbewerbsfähige Datenmodellierungs- / Miningmethode. Ein RF-Modell hat eine Ausgabe - die Ausgabe- / Vorhersagevariable. Der naive Ansatz zur Modellierung mehrerer Ausgänge mit RFs besteht darin, für jede Ausgangsvariable einen RF zu erstellen. Wir haben also N unabhängige Modelle, und wenn es eine Korrelation zwischen Ausgabevariablen …
Ich habe einen Datensatz mit hauptsächlich finanziellen Variablen (120 Features, 4k-Beispiele), die größtenteils stark korreliert und sehr verrauscht sind (z. B. technische Indikatoren). Daher möchte ich für die spätere Verwendung beim Modelltraining (binäre Klassifizierung) maximal 20-30 auswählen - erhöhen verringern). Ich dachte darüber nach, zufällige Wälder für das Feature-Ranking zu …
Kann Friedmans Steigungsverstärkungsmaschine eine bessere Leistung erzielen als Breimans Random Forest ? Wenn ja, unter welchen Bedingungen oder mit welchen Daten kann gbm verbessert werden?
Ich bin also ein Neuling im ML-Bereich und versuche, eine Einteilung vorzunehmen. Mein Ziel ist es, den Ausgang eines Sportereignisses vorherzusagen. Ich habe einige historische Daten gesammelt und versuche nun, einen Klassifikator zu trainieren. Ich habe ungefähr 1200 Proben erhalten, 0,2 davon habe ich zu Testzwecken abgespalten, andere habe ich …
Ich erkunde verschiedene Klassifizierungsmethoden für ein Projekt, an dem ich arbeite, und bin daran interessiert, Random Forests auszuprobieren. Ich versuche mich weiterzubilden und würde mich über jede Hilfe durch die CV-Community freuen. Ich habe meine Daten in Trainings- / Test-Sets aufgeteilt. Durch Experimente mit zufälligen Gesamtstrukturen in R (mit dem …
Ich versuche, Random Forest zu verwenden, um das Ergebnis eines extrem unausgeglichenen Datensatzes vorherzusagen (die Minderheitsklassenrate beträgt nur etwa 1% oder sogar weniger). Da der herkömmliche Random Forest-Algorithmus die Gesamtfehlerrate minimiert, anstatt den Minderheitsklassen besondere Aufmerksamkeit zu widmen, ist er nicht direkt auf unausgeglichene Daten anwendbar. Daher möchte ich die …
Meine Eingabevariablen haben unterschiedliche Dimensionen. Einige Variablen sind dezimal, andere hunderte. Müssen diese Eingabevariablen unbedingt zentriert (subtrahiert den Mittelwert) oder skaliert (dividiert durch die Standardabweichung) werden, damit die Daten bei Verwendung einer Zufallsgesamtstruktur dimensionslos werden?
Ich bin ziemlich neu in zufälligen Wäldern. In der Vergangenheit habe ich immer die Genauigkeit von Fit vs. Test mit Fit vs. Zug verglichen , um eine Überanpassung festzustellen. Aber ich habe gerade hier gelesen , dass: "In zufälligen Gesamtstrukturen ist keine Kreuzvalidierung oder ein separater Testsatz erforderlich, um eine …
Ich würde gerne wissen, ob Breimans zufälliger Wald (zufälliger Wald in R randomForest-Paket) als Aufteilungskriterium (Kriterium für die Attributauswahl) Informationsgewinn oder Gini-Index verwendet. Ich habe versucht, es auf http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm und in der Dokumentation für das randomForest-Paket in R herauszufinden. Aber das einzige, was ich gefunden habe, ist, dass der Gini-Index …
Ich arbeite an der Wichtigkeitsmessung des Gini-Features für zufällige Gesamtstrukturen. Daher muss ich die Gini-Abnahme der Knotenverunreinigung berechnen. So mache ich das, was zu einem Konflikt mit der Definition führt und andeutet, dass ich mich irgendwo irren muss ... :) Für einen binären Baum kann ich unter Berücksichtigung der Wahrscheinlichkeiten …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.