Ich habe verstanden, dass Random Forest und Extrem Randomized Trees sich dahingehend unterscheiden, dass die Aufteilung der Bäume im Random Forest deterministisch ist, wohingegen sie im Fall von Extrem Randomized Trees zufällig ist (genauer gesagt, die nächste Aufteilung ist die beste Aufteilung) unter zufälligen gleichmäßigen Aufteilungen in den ausgewählten Variablen …
Ich weiß, dass dies eine ziemlich spezifische RFrage ist, aber ich denke möglicherweise falsch über die erklärte Proportionsvarianz . Hier geht.R2R2R^2 Ich versuche das RPaket zu benutzen randomForest. Ich habe einige Trainingsdaten und Testdaten. Wenn ich ein zufälliges Gesamtstrukturmodell anpasse, randomForestkönnen Sie mit dieser Funktion neue Testdaten zum Testen eingeben. …
Ich arbeite an einem Datensatz mit mehr als 200.000 Stichproben und ungefähr 50 Merkmalen pro Stichprobe: 10 kontinuierliche Variablen und die anderen ~ 40 sind kategoriale Variablen (Länder, Sprachen, wissenschaftliche Gebiete usw.). Für diese kategorialen Variablen haben Sie beispielsweise 150 verschiedene Länder, 50 Sprachen, 50 wissenschaftliche Bereiche usw. Bisher ist …
Ich suche einen Klassifikator zu trainieren , die zwischen diskriminieren Type Aund Type BObjekte mit einer einigermaßen großen Trainingssatz von etwa 10.000 Objekte, etwa die Hälfte davon sind Type Aund die Hälfte davon Type B. Der Datensatz besteht aus 100 kontinuierlichen Merkmalen, die die physikalischen Eigenschaften der Zellen (Größe, mittlerer …
Ich habe von jemandem ein R-Skript zum Ausführen eines zufälligen Gesamtstrukturmodells erhalten. Ich habe es geändert und mit einigen Mitarbeiterdaten ausgeführt. Wir versuchen, freiwillige Trennungen vorherzusagen. Hier einige zusätzliche Informationen: Dies ist ein Klassifizierungsmodell, bei dem 0 = Mitarbeiter verblieben, 1 = Mitarbeiter gekündigt wurde. Wir sehen uns derzeit nur …
Ich habe einige Schwierigkeiten zu verstehen, wie die Ausgabe mit variabler Wichtigkeit aus dem Random Forest-Paket interpretiert wird. Die mittlere Abnahme der Genauigkeit wird normalerweise als "die Abnahme der Modellgenauigkeit durch Permutieren der Werte in jedem Merkmal" beschrieben. Handelt es sich um eine Aussage über das gesamte Feature oder um …
In einigen Quellen, einschließlich dieser , habe ich gelesen , dass Random Forests unempfindlich gegenüber Ausreißern sind (wie es beispielsweise bei Logistic Regression und anderen ML-Methoden der Fall ist). Zwei Teile der Intuition sagen mir jedoch etwas anderes: Bei jeder Erstellung eines Entscheidungsbaums müssen alle Punkte klassifiziert werden. Dies bedeutet, …
Nach meinem Verständnis verursachen stark korrelierte Variablen keine Multikollinearitätsprobleme im Random Forest-Modell (Bitte korrigieren Sie mich, wenn ich falsch liege). Wenn ich jedoch zu viele Variablen habe, die ähnliche Informationen enthalten, wird das Modell in dieser Menge zu stark gewichtet als in den anderen? Beispielsweise gibt es zwei Informationssätze (A, …
Ich möchte die relative Bedeutung von Variablensätzen für ein randomForestKlassifizierungsmodell in R bestimmen . Die importanceFunktion liefert die MeanDecreaseGiniMetrik für jeden einzelnen Prädiktor. Ist es so einfach, diese über jeden Prädiktor in einem Satz zu summieren? Beispielsweise: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- …
Softwareimplementierungen von zufälligen Gesamtstrukturklassifizierern verfügen über eine Reihe von Parametern, mit denen Benutzer das Verhalten des Algorithmus genau einstellen können, einschließlich der Anzahl der Gesamtstrukturbäume. Ist dies ein Parameter, der auf die gleiche Weise wie , um die Anzahl der Features zu bestimmen , die bei jeder Aufteilung getestet werden …
Ich versuche, mit R auf dem neuesten Stand zu sein. Ich möchte schließlich R-Bibliotheken für die Textklassifizierung verwenden. Ich habe mich nur gefragt, welche Erfahrungen die Leute mit der Skalierbarkeit von R machen, wenn es um die Klassifizierung von Texten geht. Es ist wahrscheinlich, dass ich auf hochdimensionale Daten stoße …
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …
In Random Forest-Algorithmus erstellt Breiman (Autor) eine Ähnlichkeitsmatrix wie folgt: Senden Sie alle Lernbeispiele an jeden Baum im Wald Wenn zwei Beispiele im selben Blatt landen, erhöhen Sie das entsprechende Element in der Ähnlichkeitsmatrix um 1 Normalisieren Sie die Matrix mit der Anzahl der Bäume Er sagt: Die Ähnlichkeiten zwischen …
Zufällige Wälder sind dafür bekannt, dass sie bei einer Vielzahl von Aufgaben eine recht gute Leistung erbringen . Gibt es Probleme oder spezielle Bedingungen, unter denen man die Verwendung einer zufälligen Gesamtstruktur vermeiden sollte?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.