Frage in einem Satz: Weiß jemand, wie man gute Klassengewichte für einen zufälligen Wald bestimmt? Erläuterung: Ich spiele mit unausgeglichenen Datensätzen herum. Ich möchte das RPaket randomForestverwenden, um ein Modell auf einem sehr verzerrten Datensatz mit nur wenigen positiven und vielen negativen Beispielen zu trainieren. Ich weiß, es gibt andere …
Beim Herumspielen mit dem Boston Housing Dataset und RandomForestRegressor(mit Standardparametern) beim Scikit-Lernen fiel mir etwas Seltsames auf: Der durchschnittliche Kreuzvalidierungswert nahm ab, als ich die Anzahl der Falten über 10 erhöhte. Meine Kreuzvalidierungsstrategie lautete wie folgt: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... wo num_cvswar abwechslungsreich. …
Kann der vorhergesagte Wert bei Entscheidungsbäumen außerhalb des Bereichs der Trainingsdaten liegen? Wenn der Trainingsdatensatzbereich der Zielvariablen beispielsweise 0-100 beträgt, können meine Werte beim Generieren und Anwenden meines Modells auf etwas anderes -5 sein? oder 150? Da ich die Regression von Entscheidungsbäumen so verstehe, dass sie immer noch auf Regeln …
Die randomForest-Implementierung erlaubt keine Stichproben über die Anzahl der Beobachtungen hinaus, selbst wenn Stichproben mit Ersatz erstellt werden. Warum ist das? Funktioniert gut: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Was ich machen will; was ich vorhabe zu tun: …
Eine zufällige Gesamtstruktur ist eine Sammlung von Entscheidungsbäumen, die gebildet werden, indem nur bestimmte Merkmale zufällig ausgewählt werden, mit denen jeder Baum erstellt werden soll (und manchmal die Trainingsdaten eingesackt werden). Anscheinend lernen und verallgemeinern sie gut. Hat jemand eine MCMC-Stichprobe des Entscheidungsbaumraums erstellt oder diese mit zufälligen Wäldern verglichen? …
Ich möchte einen Klassifikator, z. B. SVM, eine zufällige Gesamtstruktur oder einen anderen Klassifikator trainieren. Eine der Funktionen im Datensatz ist eine kategoriale Variable mit 1000 Ebenen. Was ist der beste Weg, um die Anzahl der Ebenen in dieser Variablen zu reduzieren. In R gibt es eine Funktion combine.levels()im Hmisc- …
Angenommen, ich habe ein prädiktives Klassifizierungsmodell, das auf einer zufälligen Gesamtstruktur basiert (unter Verwendung des randomForest-Pakets in R). Ich möchte es so einrichten, dass Endbenutzer ein Element angeben können, für das eine Vorhersage generiert werden soll, und es wird eine Klassifizierungswahrscheinlichkeit ausgegeben. Bisher kein Problem. Aber es wäre nützlich / …
Wenn wir einen ausgewachsenen Entscheidungsbaum (dh einen nicht beschnittenen Entscheidungsbaum) betrachten, weist er eine hohe Varianz und eine geringe Verzerrung auf. Bagging und Random Forests verwenden diese Modelle mit hoher Varianz und aggregieren sie, um die Varianz zu verringern und damit die Vorhersagegenauigkeit zu verbessern. Sowohl Bagging als auch Random …
Ich bin auf den Begriff Nähe in zufälligen Wäldern gestoßen. Aber ich konnte nicht verstehen, was es in zufälligen Wäldern tut. Wie hilft es für Klassifizierungszwecke?
Die mir bekannte Methode zum Erstellen einer zufälligen Gesamtstruktur lautet wie folgt: (von http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Um einen Baum im Wald zu bauen, haben wir: Booten Sie eine Stichprobe der Größe N, wobei N die Größe unseres Trainingssatzes ist. Verwenden Sie dieses Bootstrap-Beispiel als Trainingssatz für diesen Baum. Wählen Sie an …
Gibt es eine Möglichkeit, für jeden vorhergesagten Wert einen Konfidenzwert (wir können ihn auch als Konfidenzwert oder Wahrscheinlichkeit bezeichnen) zu erhalten, wenn Algorithmen wie Random Forests oder Extreme Gradient Boosting (XGBoost) verwendet werden? Angenommen, dieser Konfidenzwert reicht von 0 bis 1 und zeigt, wie sicher ich in Bezug auf eine …
Ich passe einen Datensatz mit einer binären Zielklasse durch die zufällige Gesamtstruktur an. In Python kann ich das entweder mit dem randomforestclassifier oder dem randomforestregressor machen. Ich kann die Klassifizierung direkt vom randomforestclassifier erhalten oder ich könnte zuerst randomforestregressor ausführen und eine Reihe von geschätzten Punktzahlen zurückerhalten (kontinuierlicher Wert). Dann …
Ich verwende das RandomForestR-Paket und bin verwirrt darüber, wie die Werte der Y-Achse in ihren partiellen Abhängigkeitsdiagrammen zu interpretieren sind. In den Hilfedokumenten heißt es, dass das Diagramm eine "grafische Darstellung des Randeffekts einer Variablen auf die Klassenwahrscheinlichkeit" ist. Ich bin jedoch immer noch verwirrt darüber, was genau die y-Achse …
Ich arbeite an einem Mehrklassenproblem mit 9 möglichen Beschriftungen, für die ich einen Datensatz habe, der aus ~ 50.000 Beispielen und ~ 200 Merkmalen besteht. Jedes Beispiel kann nur zu einer Klasse gehören. Die Daten sind zwischen den verschiedenen Bezeichnungen ziemlich ausgewogen. Aufgrund seiner Robustheit und Skalierbarkeit habe ich mich …
Ich habe eine zufällige Waldregression, die mit skl erstellt wurde, und ich stelle fest, dass ich unterschiedliche Ergebnisse erhalte, wenn ich den zufälligen Startwert auf unterschiedliche Werte setze. Wenn ich LOOCV verwende, um festzustellen, welches Seed am besten funktioniert, ist dies eine gültige Methode?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.