Statistiken und Big Data random-forest

7

Ich versuche, Random Forest Regression zum Erlernen von Scikits zu verwenden. Das Problem ist, dass ich einen sehr hohen Testfehler erhalte: train MSE, 4.64, test MSE: 252.25. So sehen meine Daten aus: (blau: echte Daten, grün: vorhergesagt): Ich benutze 90% für das Training und 10% für den Test. Dies ist …

15 regression random-forest scikit-learn

1

Wie sollten Entscheidungsbaumaufteilungen implementiert werden, wenn kontinuierliche Variablen vorhergesagt werden?

Eigentlich schreibe ich eine Implementierung von Random Forests, aber ich glaube, die Frage ist spezifisch für Entscheidungsbäume (unabhängig von RFs). Der Kontext ist also, dass ich einen Knoten in einem Entscheidungsbaum erstelle und sowohl die Vorhersage- als auch die Zielvariable kontinuierlich sind. Der Knoten hat einen aufgeteilten Schwellenwert, um Daten …

15 algorithms cart random-forest

2

Welches Maß an Trainingsfehlern für zufällige Wälder?

Ich passe zurzeit zufällige Gesamtstrukturen für ein Klassifizierungsproblem mit dem randomForestPaket in R an und bin nicht sicher, wie Trainingsfehler für diese Modelle gemeldet werden sollen. Mein Trainingsfehler liegt nahe bei 0%, wenn ich ihn mit Vorhersagen berechne, die ich mit dem Befehl erhalte: predict(model, data=X_train) Wo X_trainsind die Trainingsdaten? …

15 r machine-learning classification random-forest overfitting

3

Wie schätzt "predict.randomForest" Klassenwahrscheinlichkeiten?

Wie randomForestschätzt das Paket Klassenwahrscheinlichkeiten, wenn ich verwende predict(model, data, type = "prob")? Ich habe rangerzufällige Gesamtstrukturen mit dem probability = TArgument trainiert , um Wahrscheinlichkeiten vorherzusagen. rangerIn der Dokumentation heißt es: Bauen Sie einen Wahrscheinlichkeitswald wie in Malley et al. (2012). Ich habe einige Daten simuliert und beide Pakete …

15 r random-forest prediction

1

Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?

Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

1

Einschließlich Interaktionsbegriffe in zufälliger Gesamtstruktur

Angenommen, wir haben eine Antwort Y und Prädiktoren X1, ...., Xn. Wenn wir versuchen würden, Y über ein lineares Modell von X1, ..., Xn anzupassen, und es wäre einfach so, dass die wahre Beziehung zwischen Y und X1, ..., Xn nicht linear wäre, könnten wir in der Lage sein um …

15 machine-learning random-forest

2

Warum tastet die scikit-learn-Bootstrap-Funktion den Testsatz erneut ab?

Bei der Verwendung von Bootstrapping für die Modellbewertung dachte ich immer, dass die Out-of-Bag-Proben direkt als Testsatz verwendet wurden. Dies scheint jedoch nicht der Fall zu sein für den veralteten Scikit-Lernansatz,Bootstrap bei dem der Testsatz aus dem Zeichnen mit Ersetzen aus der Out-of-Bag- Datenuntermenge aufgebaut zu werden scheint. Was ist …

15 cross-validation bootstrap random-forest scikit-learn bagging

1

Welche Absackalgorithmen sind würdige Nachfolger von Random Forest?

Für das Boosten von Algorithmen würde ich sagen, dass sie sich ziemlich gut entwickelt haben. Anfang 1995 wurde AdaBoost eingeführt und nach einiger Zeit wurde es Gradient Boosting Machine (GBM). Vor kurzem wurde um 2015 XGBoost eingeführt, das genau ist, Überanpassungen handhabt und bei mehreren Kaggle-Wettbewerben als Sieger hervorgegangen ist. …

14 random-forest boosting bagging

2

Unterschiedliche Ergebnisse von randomForest über caret und das Basispaket randomForest

Ich bin etwas verwirrt: Wie können sich die Ergebnisse eines trainierten Modells per Caret vom Modell in der Originalverpackung unterscheiden? Ich habe gelesen, ob vor der Vorhersage mit FinalModel von RandomForest mit Caret-Paket eine Vorverarbeitung erforderlich ist. aber ich benutze hier keine vorverarbeitung. Ich habe verschiedene Zufallswälder trainiert, indem ich …

14 r machine-learning random-forest caret train

3

Gewichtung neuerer Daten im Random Forest-Modell

Ich trainiere ein Klassifizierungsmodell mit Random Forest, um zwischen 6 Kategorien zu unterscheiden. Meine Transaktionsdaten umfassen ungefähr 60.000 Beobachtungen und 35 Variablen. Hier ist ein Beispiel, wie es ungefähr aussieht. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 …

14 r machine-learning classification random-forest

1

Verwenden von LASSO für zufällige Gesamtstrukturen

Ich möchte eine zufällige Gesamtstruktur mit dem folgenden Verfahren erstellen: Erstellen Sie einen Baum aus zufälligen Stichproben der Daten und Features, und verwenden Sie dabei den Informationsgewinn, um die Aufteilung zu bestimmen Beenden Sie einen Blattknoten, wenn er eine vordefinierte Tiefe überschreitet, ODER wenn eine Teilung zu einer Blattanzahl führen …

14 classification random-forest lasso ensemble

1

RandomForest - MDS-Plotinterpretation

Ich habe randomForest verwendet, um 6 Verhaltensweisen von Tieren (z. B. Stehen, Gehen, Schwimmen usw.) anhand von 8 Variablen (unterschiedliche Körperhaltungen und Bewegungen) zu klassifizieren. Der MDSplot im randomForest-Paket gibt diese Ausgabe aus und es treten Probleme bei der Interpretation des Ergebnisses auf. Ich habe eine PCA mit den gleichen …

14 r classification random-forest multidimensional-scaling

2

Warum verbessert sich die OOB-Schätzung für zufällige Gesamtstrukturen, wenn die Anzahl der ausgewählten Features verringert wird?

Ich wende einen zufälligen Gesamtstrukturalgorithmus als Klassifikator auf ein Microarray-Dataset an, das in zwei bekannte Gruppen mit Tausenden von Features aufgeteilt ist. Nach dem ersten Start schaue ich mir die Wichtigkeit der Features an und starte den Tree-Algorithmus erneut mit den wichtigsten Features 5, 10 und 20. Ich finde, dass …

14 r machine-learning classification random-forest

3

R: Was sehe ich in partiellen Abhängigkeitsdiagrammen von gbm und RandomForest?

Eigentlich dachte ich, ich hätte verstanden, was man mit partieller Abhängigkeit darstellen kann, aber unter Verwendung eines sehr einfachen hypothetischen Beispiels wurde ich ziemlich verwirrt. Im folgenden Codeabschnitt generiere ich drei unabhängige Variablen ( a , b , c ) und eine abhängige Variable ( y ), wobei c eine …

14 r random-forest boosting partial-plot

3

Was sollten die optimalen Parameter für den Random Forest-Klassifikator sein?

Derzeit verwende ich RF-Toolbox auf MATLAB für eine binäre Klassifizierung Problem Datensatz: 50000 Stichproben und mehr als 250 Funktionen Wie viele Bäume und zufällig ausgewählte Merkmale sollten bei jeder Teilung vorhanden sein, um die Bäume wachsen zu lassen? Kann ein anderer Parameter die Ergebnisse stark beeinflussen?

14 machine-learning classification random-forest

Als «random-forest» getaggte Fragen