Als «random-forest» getaggte Fragen

Random Forest ist eine maschinelle Lernmethode, die auf der Kombination der Ergebnisse vieler Entscheidungsbäume basiert.

3
Unterschied zwischen zufälligen Wäldern und extrem zufälligen Bäumen
Ich habe verstanden, dass Random Forest und Extrem Randomized Trees sich dahingehend unterscheiden, dass die Aufteilung der Bäume im Random Forest deterministisch ist, wohingegen sie im Fall von Extrem Randomized Trees zufällig ist (genauer gesagt, die nächste Aufteilung ist die beste Aufteilung) unter zufälligen gleichmäßigen Aufteilungen in den ausgewählten Variablen …

1
Manuell berechnetes stimmt nicht mit randomForest () überein, um neue Daten zu testen
Ich weiß, dass dies eine ziemlich spezifische RFrage ist, aber ich denke möglicherweise falsch über die erklärte Proportionsvarianz . Hier geht.R2R2R^2 Ich versuche das RPaket zu benutzen randomForest. Ich habe einige Trainingsdaten und Testdaten. Wenn ich ein zufälliges Gesamtstrukturmodell anpasse, randomForestkönnen Sie mit dieser Funktion neue Testdaten zum Testen eingeben. …

6
Verbessere die Klassifizierung mit vielen kategorialen Variablen
Ich arbeite an einem Datensatz mit mehr als 200.000 Stichproben und ungefähr 50 Merkmalen pro Stichprobe: 10 kontinuierliche Variablen und die anderen ~ 40 sind kategoriale Variablen (Länder, Sprachen, wissenschaftliche Gebiete usw.). Für diese kategorialen Variablen haben Sie beispielsweise 150 verschiedene Länder, 50 Sprachen, 50 wissenschaftliche Bereiche usw. Bisher ist …


3
Wie werden OOB und Verwirrungsmatrix für zufällige Gesamtstrukturen interpretiert?
Ich habe von jemandem ein R-Skript zum Ausführen eines zufälligen Gesamtstrukturmodells erhalten. Ich habe es geändert und mit einigen Mitarbeiterdaten ausgeführt. Wir versuchen, freiwillige Trennungen vorherzusagen. Hier einige zusätzliche Informationen: Dies ist ein Klassifizierungsmodell, bei dem 0 = Mitarbeiter verblieben, 1 = Mitarbeiter gekündigt wurde. Wir sehen uns derzeit nur …

3
Interpretation der mittleren Abnahme der Genauigkeit und der mittleren Abnahme des GINI in Random Forest-Modellen
Ich habe einige Schwierigkeiten zu verstehen, wie die Ausgabe mit variabler Wichtigkeit aus dem Random Forest-Paket interpretiert wird. Die mittlere Abnahme der Genauigkeit wird normalerweise als "die Abnahme der Modellgenauigkeit durch Permutieren der Werte in jedem Merkmal" beschrieben. Handelt es sich um eine Aussage über das gesamte Feature oder um …

3
Wie reagieren Zufallswälder nicht auf Ausreißer?
In einigen Quellen, einschließlich dieser , habe ich gelesen , dass Random Forests unempfindlich gegenüber Ausreißern sind (wie es beispielsweise bei Logistic Regression und anderen ML-Methoden der Fall ist). Zwei Teile der Intuition sagen mir jedoch etwas anderes: Bei jeder Erstellung eines Entscheidungsbaums müssen alle Punkte klassifiziert werden. Dies bedeutet, …

2
Werden nicht stark korrelierte Variablen in zufälliger Gesamtstruktur Genauigkeit und Feature-Auswahl verzerren?
Nach meinem Verständnis verursachen stark korrelierte Variablen keine Multikollinearitätsprobleme im Random Forest-Modell (Bitte korrigieren Sie mich, wenn ich falsch liege). Wenn ich jedoch zu viele Variablen habe, die ähnliche Informationen enthalten, wird das Modell in dieser Menge zu stark gewichtet als in den anderen? Beispielsweise gibt es zwei Informationssätze (A, …

2
Relative Bedeutung einer Reihe von Prädiktoren in einer zufälligen Waldklassifikation in R
Ich möchte die relative Bedeutung von Variablensätzen für ein randomForestKlassifizierungsmodell in R bestimmen . Die importanceFunktion liefert die MeanDecreaseGiniMetrik für jeden einzelnen Prädiktor. Ist es so einfach, diese über jeden Prädiktor in einem Satz zu summieren? Beispielsweise: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- …

1
Müssen wir die Anzahl der Bäume in einem zufälligen Wald stimmen?
Softwareimplementierungen von zufälligen Gesamtstrukturklassifizierern verfügen über eine Reihe von Parametern, mit denen Benutzer das Verhalten des Algorithmus genau einstellen können, einschließlich der Anzahl der Gesamtstrukturbäume. Ist dies ein Parameter, der auf die gleiche Weise wie , um die Anzahl der Features zu bestimmen , die bei jeder Aufteilung getestet werden …



3
R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.