Statistiken und Big Data random-forest

9

Wissen aus einer zufälligen Gesamtstruktur abrufen

Zufällige Wälder gelten als Black Boxes, aber in letzter Zeit habe ich darüber nachgedacht, welches Wissen aus einem zufälligen Wald gewonnen werden kann. Das offensichtlichste ist die Wichtigkeit der Variablen. In der einfachsten Variante kann dies einfach durch Berechnen der Anzahl der Vorkommen einer Variablen erfolgen. Das zweite, woran ich …

127 machine-learning data-mining interaction random-forest cart

2

Steigung, die Baum gegen gelegentlichen Wald auflädt

Die von Friedman vorgeschlagene Gradientenbaumverstärkung verwendet Entscheidungsbäume als Basislerner. Ich frage mich, ob wir den Basisentscheidungsbaum so komplex wie möglich (ausgewachsen) oder einfacher gestalten sollen. Gibt es eine Erklärung für die Wahl? Random Forest ist eine weitere Ensemblemethode, bei der Entscheidungsbäume als Basislerner verwendet werden. Nach meinem Verständnis verwenden wir …

110 machine-learning random-forest cart boosting ensemble

3

Der beste Weg, eine zufällige Gesamtstruktur in einer Publikation darzustellen?

Ich verwende den Random Forest-Algorithmus als robusten Klassifikator für zwei Gruppen in einer Microarray-Studie mit Tausenden von Features. Was ist der beste Weg, um die zufällige Gesamtstruktur so darzustellen, dass genügend Informationen vorhanden sind, um sie in einem Papier reproduzierbar zu machen? Gibt es eine Plotmethode in R, um den …

75 r machine-learning classification random-forest microarray

2

Praktische Fragen zur Optimierung von Random Forests

Meine Fragen beziehen sich auf zufällige Wälder. Das Konzept dieses schönen Klassifikators ist mir klar, aber es gibt noch viele praktische Fragen zur Verwendung. Leider konnte ich keinen praktischen Leitfaden für RF finden (ich habe nach etwas wie "Ein praktischer Leitfaden für das Training eingeschränkter Boltzman-Maschinen" von Geoffrey Hinton gesucht, …

65 random-forest cart

3

Wie kann man einen Beispielbaum aus randomForest :: getTree () zeichnen? [geschlossen]

Jeder hat Bibliotheks- oder Codevorschläge, wie man tatsächlich ein paar Beispielbäume plottet : getTree(rfobj, k, labelVar=TRUE) (Ja, ich weiß, Sie sollten dies nicht operativ tun, RF ist eine Blackbox usw. usw. Ich möchte einen Baum visuell auf Fehler überprüfen, um festzustellen, ob sich Variablen nicht intuitiv verhalten Wie gut funktionieren …

62 r data-visualization random-forest cart

6

Haben die Vorhersagen eines Random Forest-Modells ein Vorhersageintervall?

Wenn ich ein randomForestModell ausführe , kann ich anhand des Modells Vorhersagen treffen. Gibt es eine Möglichkeit, ein Vorhersageintervall für jede der Vorhersagen zu erhalten, so dass ich weiß, wie "sicher" das Modell in seiner Antwort ist? Wenn dies möglich ist, basiert es einfach auf der Variabilität der abhängigen Variablen …

52 r confidence-interval random-forest

5

Ist Random Forest ein Boosting-Algorithmus?

Kurzdefinition von Boosten : Können schwache Lernende einen einzigen starken Lernenden hervorbringen? Ein schwacher Lernender wird definiert als ein Klassifikator, der nur geringfügig mit der wahren Klassifikation korreliert (er kann Beispiele besser kennzeichnen als zufälliges Erraten). Kurzdefinition von Random Forest : Random Forests lässt viele Klassifizierungsbäume wachsen. Um ein neues …

51 machine-learning random-forest boosting bagging

3

Kann eine zufällige Gesamtstruktur für die Feature-Auswahl in der multiplen linearen Regression verwendet werden?

Da RF mit Nichtlinearität umgehen kann, aber keine Koeffizienten bereitstellt, ist es ratsam, Zufallsgesamtstrukturen zu verwenden, um die wichtigsten Merkmale zu erfassen und diese Merkmale dann in ein Modell mit mehreren linearen Regressionen zu integrieren, um ihre Koeffizienten zu erhalten.

50 regression machine-learning feature-selection random-forest regression-strategies

4

Zufällige Gesamtstrukturberechnungszeit in R

Ich verwende das Party- Paket in R mit 10.000 Zeilen und 34 Features, und einige Factor-Features haben mehr als 300 Levels. Die Rechenzeit ist zu lang. (Es hat bis jetzt 3 Stunden gedauert und ist noch nicht fertig.) Ich möchte wissen, welche Elemente einen großen Einfluss auf die Rechenzeit einer …

48 r random-forest

3

Hängt die optimale Anzahl der Bäume in einer zufälligen Gesamtstruktur von der Anzahl der Prädiktoren ab?

Kann jemand erklären, warum wir eine große Anzahl Bäume in zufälligen Wäldern benötigen, wenn die Anzahl der Prädiktoren groß ist? Wie können wir die optimale Anzahl von Bäumen bestimmen?

46 machine-learning random-forest

5

Optimierte Implementierungen des Random Forest-Algorithmus

Mir ist aufgefallen, dass es einige Implementierungen von Random Forest wie ALGLIB, Waffles und einige R-Pakete gibt randomForest. Kann mir jemand sagen, ob diese Bibliotheken hoch optimiert sind? Entsprechen sie im Wesentlichen den Zufallsforsten, wie in den Elementen des statistischen Lernens beschrieben, oder wurden viele zusätzliche Tricks hinzugefügt? Ich hoffe, …

44 random-forest algorithms model-evaluation

2

Zufällige Waldannahmen

Ich bin ein bisschen neu in zufälligen Wäldern, also habe ich immer noch Probleme mit einigen grundlegenden Konzepten. In der linearen Regression nehmen wir unabhängige Beobachtungen, konstante Varianz ... an. Was sind die Grundannahmen / Hypothesen, die wir machen, wenn wir zufällige Gesamtstrukturen verwenden? Was sind die Hauptunterschiede zwischen zufälligen …

43 regression classification random-forest

7

Warum verarbeitet Random Forest fehlende Werte in Prädiktoren nicht?

Was sind theoretische Gründe, um fehlende Werte nicht zu behandeln? Gradientenverstärkungsmaschinen und Regressionsbäume verarbeiten fehlende Werte. Warum macht Random Forest das nicht?

42 random-forest missing-data gbm

6

Random Forest - Wie gehe ich mit Überanpassung um?

Ich habe einen Informatik-Hintergrund, versuche mich aber Datenwissenschaft beizubringen, indem ich Probleme im Internet löse. Ich habe in den letzten Wochen an diesem Problem gearbeitet (ca. 900 Zeilen und 10 Features). Anfangs habe ich die logistische Regression verwendet, jetzt bin ich zu zufälligen Wäldern gewechselt. Wenn ich mein Zufallswaldmodell mit …

41 random-forest overfitting

2

Messungen von unterschiedlicher Bedeutung in zufälligen Wäldern

Ich habe mit zufälligen Wäldern für die Regression herumgespielt und habe Schwierigkeiten, genau herauszufinden, was die beiden wichtigen Maße bedeuten und wie sie interpretiert werden sollten. Die importance()Funktion gibt für jede Variable zwei Werte an: %IncMSEund IncNodePurity. Gibt es einfache Interpretationen für diese 2 Werte? Ist dies IncNodePurityinsbesondere einfach der …

40 r machine-learning random-forest importance

Als «random-forest» getaggte Fragen