Statistiken und Big Data random-forest

5

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Erste Schritte zur Vorhersage finanzieller Zeitreihen durch maschinelles Lernen

Ich versuche zu verstehen, wie man maschinelles Lernen eins oder mehr Schritte in die Zukunft voraussagt. Ich habe eine finanzielle Zeitserie mit einigen beschreibenden Daten und möchte ein Modell bilden und dann das Modell verwenden, um n-Schritte vorauszusagen. Was ich bisher gemacht habe, ist: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- …

12 r time-series machine-learning random-forest finance

3

Vorhersage von Zähldaten mit zufälliger Gesamtstruktur

Kann ein Random Forest trainiert werden, um die Zähldaten angemessen vorherzusagen? Wie würde das gehen? Ich habe einen ziemlich großen Wertebereich, daher ist eine Klassifizierung nicht wirklich sinnvoll. Wenn ich die Regression verwenden würde, würde ich die Ergebnisse einfach abschneiden? Ich bin hier ziemlich verloren. Irgendwelche Ideen?

12 r regression random-forest prediction count-data

2

Zufällige Gesamtstruktur: Was ist, wenn ich weiß, dass eine Variable wichtig ist?

Mein Verständnis ist, dass die zufällige Gesamtstruktur zufällig ausgewählte Variablen auswählt , um jeden Entscheidungsbaum zu erstellen. Wenn also mtry = ncol / 3 ist, wird jede Variable durchschnittlich in 1/3 der Bäume verwendet. Und 2/3 der Bäume werden sie nicht benutzen. Aber was ist, wenn ich weiß, dass eine …

12 r random-forest parameterization

2

randomForest wählt Regression statt Klassifikation

Ich verwende das randomForest- Paket in R und verwende die Iris-Daten. Die generierte zufällige Gesamtstruktur ist eine Klassifizierung. Wenn ich jedoch einen Datensatz mit ca. 700 Features verwende (die Features sind jeweils Pixel in einem 28 x 28 Pixel großen Bild), wird die Beschriftungsspalte benannt labelist die randomForesterzeugte Regression. Ich …

12 r random-forest

2

PCA und zufällige Wälder

Für einen kürzlich durchgeführten Kaggle-Wettbewerb habe ich (manuell) 10 zusätzliche Funktionen für mein Trainingsset definiert, die dann zum Trainieren eines zufälligen Waldklassifikators verwendet werden. Ich habe mich entschieden, PCA für das Dataset mit den neuen Funktionen auszuführen, um zu sehen, wie sie miteinander verglichen werden. Ich fand heraus, dass ~ …

12 classification pca random-forest

1

Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie?

Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie? Ich versuche, zufällige Gesamtstruktur in Clojure zu implementieren.

12 classification random-forest cart

1

Wie kann die Anzahl der Fehlalarme verringert werden?

Ich versuche, eine Aufgabe zu lösen, die als Fußgängererkennung bezeichnet wird, und trainiere binäre Klassen in zwei Kategorien: Positive - Personen, Negative - Hintergrund. Ich habe Datensatz: Anzahl der Positiven = 3752 Anzahl der negativen = 3800 Ich benutze train \ test split 80 \ 20% und RandomForestClassifier form scikit-learn …

12 classification random-forest unbalanced-classes precision-recall computer-vision

1

Ist eine Vorverarbeitung vor der Vorhersage mit FinalModel von RandomForest mit Caret-Paket erforderlich?

Ich verwende das Caret-Paket zum Trainieren eines randomForest-Objekts mit 10x10CV. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) Danach teste ich den randomForest auf einem testSet (neue Daten) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) Die Verwirrungsmatrix zeigt mir, dass das Modell nicht so …

12 r random-forest prediction caret

2

Wie kombiniere ich Ergebnisse logistischer Regression und zufälliger Gesamtstruktur?

Ich bin neu im maschinellen Lernen. Ich habe logistische Regression und zufällige Gesamtstruktur auf denselben Datensatz angewendet. Ich erhalte also eine variable Wichtigkeit (absoluter Koeffizient für die logistische Regression und variable Wichtigkeit für zufällige Wälder). Ich denke, die beiden zu kombinieren, um eine endgültige variable Bedeutung zu erhalten. Kann jemand …

12 machine-learning logistic random-forest

2

Funktionsauswahl und Parametereinstellung mit Caret für zufällige Gesamtstruktur

Ich habe Daten mit einigen tausend Features und möchte eine rekursive Feature-Auswahl (RFE) durchführen, um nicht informative zu entfernen. Ich mache das mit Caret und RFE. Ich begann jedoch zu überlegen, wann ich die Parameterabstimmung ( mtryfür RF) durchführen soll, wenn ich die beste Regressionsanpassung erhalten möchte (z. B. zufällige …

12 regression feature-selection random-forest caret

1

Geschichtete Klassifizierung mit zufälligen Wäldern (oder einem anderen Klassifizierer)

Ich habe also eine Matrix von ungefähr 60 x 1000. Ich betrachte sie als 60 Objekte mit 1000 Merkmalen. Die 60 Objekte sind in 3 Klassen (a, b, c) eingeteilt. 20 Objekte in jeder Klasse, und wir kennen die wahre Klassifizierung. Ich möchte an diesem Satz von 60 Trainingsbeispielen überwachtes …

12 machine-learning classification multilevel-analysis random-forest stratification

2

Zeigen zufällige Wälder eine Vorhersageverzerrung?

Ich denke, dies ist eine einfache Frage, obwohl die Gründe dafür, warum oder warum nicht, möglicherweise nicht zutreffen. Der Grund, den ich frage, ist, dass ich kürzlich meine eigene Implementierung eines RF geschrieben habe und obwohl es gut funktioniert, funktioniert es nicht ganz so gut, wie ich es erwartet hatte …

12 algorithms random-forest cart

3

Zufällige Waldregression, die nicht höher als die Trainingsdaten ist

Ich habe festgestellt, dass beim Erstellen zufälliger Waldregressionsmodelle, zumindest in R, der vorhergesagte Wert niemals den in den Trainingsdaten angezeigten Maximalwert der Zielvariablen überschreitet. Ein Beispiel finden Sie im folgenden Code. Ich erstelle ein Regressionsmodell, um mpgbasierend auf den mtcarsDaten Vorhersagen zu treffen . Ich baue OLS- und zufällige Waldmodelle …

12 r random-forest

1

Warum schließen CNNs mit FC-Schichten ab?

Nach meinem Verständnis bestehen CNNs aus zwei Teilen. Der erste Teil (Conv / Pool-Schichten), der die Merkmalsextraktion durchführt, und der zweite Teil (fc-Schichten), der die Klassifizierung aus den Merkmalen vornimmt. Da vollständig verbundene neuronale Netze nicht die besten Klassifizierer sind (dh sie werden die meiste Zeit von SVMs und RFs …

11 neural-networks svm random-forest conv-neural-network

Als «random-forest» getaggte Fragen