Statistiken und Big Data random-forest

1

Frage in einem Satz: Weiß jemand, wie man gute Klassengewichte für einen zufälligen Wald bestimmt? Erläuterung: Ich spiele mit unausgeglichenen Datensätzen herum. Ich möchte das RPaket randomForestverwenden, um ein Modell auf einem sehr verzerrten Datensatz mit nur wenigen positiven und vielen negativen Beispielen zu trainieren. Ich weiß, es gibt andere …

11 r random-forest

1

Warum senkt eine große Auswahl an K meine Kreuzvalidierungsbewertung?

Beim Herumspielen mit dem Boston Housing Dataset und RandomForestRegressor(mit Standardparametern) beim Scikit-Lernen fiel mir etwas Seltsames auf: Der durchschnittliche Kreuzvalidierungswert nahm ab, als ich die Anzahl der Falten über 10 erhöhte. Meine Kreuzvalidierungsstrategie lautete wie folgt: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... wo num_cvswar abwechslungsreich. …

11 machine-learning cross-validation random-forest sample-size scikit-learn

2

Entscheidungsbäume und Regression - Können vorhergesagte Werte außerhalb des Bereichs der Trainingsdaten liegen?

Kann der vorhergesagte Wert bei Entscheidungsbäumen außerhalb des Bereichs der Trainingsdaten liegen? Wenn der Trainingsdatensatzbereich der Zielvariablen beispielsweise 0-100 beträgt, können meine Werte beim Generieren und Anwenden meines Modells auf etwas anderes -5 sein? oder 150? Da ich die Regression von Entscheidungsbäumen so verstehe, dass sie immer noch auf Regeln …

11 regression predictive-models random-forest cart

2

Stichprobe mit Ersatz in R randomForest

Die randomForest-Implementierung erlaubt keine Stichproben über die Anzahl der Beobachtungen hinaus, selbst wenn Stichproben mit Ersatz erstellt werden. Warum ist das? Funktioniert gut: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Was ich machen will; was ich vorhabe zu tun: …

11 r sampling random-forest stratification oversampling

2

MCMC-Stichprobe des Entscheidungsbaumraums im Vergleich zur zufälligen Gesamtstruktur

Eine zufällige Gesamtstruktur ist eine Sammlung von Entscheidungsbäumen, die gebildet werden, indem nur bestimmte Merkmale zufällig ausgewählt werden, mit denen jeder Baum erstellt werden soll (und manchmal die Trainingsdaten eingesackt werden). Anscheinend lernen und verallgemeinern sie gut. Hat jemand eine MCMC-Stichprobe des Entscheidungsbaumraums erstellt oder diese mit zufälligen Wäldern verglichen? …

11 mcmc monte-carlo random-forest cart

1

Reduzierung der Anzahl der Ebenen ungeordneter kategorialer Prädiktorvariablen

Ich möchte einen Klassifikator, z. B. SVM, eine zufällige Gesamtstruktur oder einen anderen Klassifikator trainieren. Eine der Funktionen im Datensatz ist eine kategoriale Variable mit 1000 Ebenen. Was ist der beste Weg, um die Anzahl der Ebenen in dieser Variablen zu reduzieren. In R gibt es eine Funktion combine.levels()im Hmisc- …

11 classification svm random-forest many-categories

2

Gibt es eine Möglichkeit, eine Vorhersage aus einem zufälligen Waldmodell zu erklären?

Angenommen, ich habe ein prädiktives Klassifizierungsmodell, das auf einer zufälligen Gesamtstruktur basiert (unter Verwendung des randomForest-Pakets in R). Ich möchte es so einrichten, dass Endbenutzer ein Element angeben können, für das eine Vorhersage generiert werden soll, und es wird eine Klassifizierungswahrscheinlichkeit ausgegeben. Bisher kein Problem. Aber es wäre nützlich / …

11 machine-learning random-forest

2

Warum hat ein Sackbaum / zufälliger Waldbaum eine höhere Tendenz als ein einzelner Entscheidungsbaum?

Wenn wir einen ausgewachsenen Entscheidungsbaum (dh einen nicht beschnittenen Entscheidungsbaum) betrachten, weist er eine hohe Varianz und eine geringe Verzerrung auf. Bagging und Random Forests verwenden diese Modelle mit hoher Varianz und aggregieren sie, um die Varianz zu verringern und damit die Vorhersagegenauigkeit zu verbessern. Sowohl Bagging als auch Random …

11 variance random-forest cart bias bagging

2

Was versteht man unter Nähe in zufälligen Wäldern?

Ich bin auf den Begriff Nähe in zufälligen Wäldern gestoßen. Aber ich konnte nicht verstehen, was es in zufälligen Wäldern tut. Wie hilft es für Klassifizierungszwecke?

11 machine-learning random-forest

1

Motivation hinter zufälligen Waldalgorithmusschritten

Die mir bekannte Methode zum Erstellen einer zufälligen Gesamtstruktur lautet wie folgt: (von http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Um einen Baum im Wald zu bauen, haben wir: Booten Sie eine Stichprobe der Größe N, wobei N die Größe unseres Trainingssatzes ist. Verwenden Sie dieses Bootstrap-Beispiel als Trainingssatz für diesen Baum. Wählen Sie an …

11 machine-learning classification random-forest

1

Wie berechnet man die Konfidenzwerte in der Regression (mit zufälligen Wäldern / XGBoost) für jede Vorhersage in R?

Gibt es eine Möglichkeit, für jeden vorhergesagten Wert einen Konfidenzwert (wir können ihn auch als Konfidenzwert oder Wahrscheinlichkeit bezeichnen) zu erhalten, wenn Algorithmen wie Random Forests oder Extreme Gradient Boosting (XGBoost) verwendet werden? Angenommen, dieser Konfidenzwert reicht von 0 bis 1 und zeigt, wie sicher ich in Bezug auf eine …

11 r regression random-forest prediction boosting

1

Sollte ich Random Forest Regressor oder Klassifikator wählen?

Ich passe einen Datensatz mit einer binären Zielklasse durch die zufällige Gesamtstruktur an. In Python kann ich das entweder mit dem randomforestclassifier oder dem randomforestregressor machen. Ich kann die Klassifizierung direkt vom randomforestclassifier erhalten oder ich könnte zuerst randomforestregressor ausführen und eine Reihe von geschätzten Punktzahlen zurückerhalten (kontinuierlicher Wert). Dann …

11 python random-forest

1

Bedeutung der y-Achse im Random Forest Partial Dependence Plot

Ich verwende das RandomForestR-Paket und bin verwirrt darüber, wie die Werte der Y-Achse in ihren partiellen Abhängigkeitsdiagrammen zu interpretieren sind. In den Hilfedokumenten heißt es, dass das Diagramm eine "grafische Darstellung des Randeffekts einer Variablen auf die Klassenwahrscheinlichkeit" ist. Ich bin jedoch immer noch verwirrt darüber, was genau die y-Achse …

11 r interpretation random-forest partial-plot

2

Bessere Leistung mit Random Forest One-Vs-All als mit Random Forest Multiclass?

Ich arbeite an einem Mehrklassenproblem mit 9 möglichen Beschriftungen, für die ich einen Datensatz habe, der aus ~ 50.000 Beispielen und ~ 200 Merkmalen besteht. Jedes Beispiel kann nur zu einer Klasse gehören. Die Daten sind zwischen den verschiedenen Bezeichnungen ziemlich ausgewogen. Aufgrund seiner Robustheit und Skalierbarkeit habe ich mich …

11 random-forest scikit-learn multi-class

1

Ist es "fair", einen Samen in eine zufällige Waldregression zu setzen, um die höchste Genauigkeit zu erzielen?

Ich habe eine zufällige Waldregression, die mit skl erstellt wurde, und ich stelle fest, dass ich unterschiedliche Ergebnisse erhalte, wenn ich den zufälligen Startwert auf unterschiedliche Werte setze. Wenn ich LOOCV verwende, um festzustellen, welches Seed am besten funktioniert, ist dies eine gültige Methode?

10 cross-validation random-forest

Als «random-forest» getaggte Fragen