Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
Ich versuche zu verstehen, wie man maschinelles Lernen eins oder mehr Schritte in die Zukunft voraussagt. Ich habe eine finanzielle Zeitserie mit einigen beschreibenden Daten und möchte ein Modell bilden und dann das Modell verwenden, um n-Schritte vorauszusagen. Was ich bisher gemacht habe, ist: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- …
Kann ein Random Forest trainiert werden, um die Zähldaten angemessen vorherzusagen? Wie würde das gehen? Ich habe einen ziemlich großen Wertebereich, daher ist eine Klassifizierung nicht wirklich sinnvoll. Wenn ich die Regression verwenden würde, würde ich die Ergebnisse einfach abschneiden? Ich bin hier ziemlich verloren. Irgendwelche Ideen?
Mein Verständnis ist, dass die zufällige Gesamtstruktur zufällig ausgewählte Variablen auswählt , um jeden Entscheidungsbaum zu erstellen. Wenn also mtry = ncol / 3 ist, wird jede Variable durchschnittlich in 1/3 der Bäume verwendet. Und 2/3 der Bäume werden sie nicht benutzen. Aber was ist, wenn ich weiß, dass eine …
Ich verwende das randomForest- Paket in R und verwende die Iris-Daten. Die generierte zufällige Gesamtstruktur ist eine Klassifizierung. Wenn ich jedoch einen Datensatz mit ca. 700 Features verwende (die Features sind jeweils Pixel in einem 28 x 28 Pixel großen Bild), wird die Beschriftungsspalte benannt labelist die randomForesterzeugte Regression. Ich …
Für einen kürzlich durchgeführten Kaggle-Wettbewerb habe ich (manuell) 10 zusätzliche Funktionen für mein Trainingsset definiert, die dann zum Trainieren eines zufälligen Waldklassifikators verwendet werden. Ich habe mich entschieden, PCA für das Dataset mit den neuen Funktionen auszuführen, um zu sehen, wie sie miteinander verglichen werden. Ich fand heraus, dass ~ …
Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie? Ich versuche, zufällige Gesamtstruktur in Clojure zu implementieren.
Ich versuche, eine Aufgabe zu lösen, die als Fußgängererkennung bezeichnet wird, und trainiere binäre Klassen in zwei Kategorien: Positive - Personen, Negative - Hintergrund. Ich habe Datensatz: Anzahl der Positiven = 3752 Anzahl der negativen = 3800 Ich benutze train \ test split 80 \ 20% und RandomForestClassifier form scikit-learn …
Ich verwende das Caret-Paket zum Trainieren eines randomForest-Objekts mit 10x10CV. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) Danach teste ich den randomForest auf einem testSet (neue Daten) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) Die Verwirrungsmatrix zeigt mir, dass das Modell nicht so …
Ich bin neu im maschinellen Lernen. Ich habe logistische Regression und zufällige Gesamtstruktur auf denselben Datensatz angewendet. Ich erhalte also eine variable Wichtigkeit (absoluter Koeffizient für die logistische Regression und variable Wichtigkeit für zufällige Wälder). Ich denke, die beiden zu kombinieren, um eine endgültige variable Bedeutung zu erhalten. Kann jemand …
Ich habe Daten mit einigen tausend Features und möchte eine rekursive Feature-Auswahl (RFE) durchführen, um nicht informative zu entfernen. Ich mache das mit Caret und RFE. Ich begann jedoch zu überlegen, wann ich die Parameterabstimmung ( mtryfür RF) durchführen soll, wenn ich die beste Regressionsanpassung erhalten möchte (z. B. zufällige …
Ich habe also eine Matrix von ungefähr 60 x 1000. Ich betrachte sie als 60 Objekte mit 1000 Merkmalen. Die 60 Objekte sind in 3 Klassen (a, b, c) eingeteilt. 20 Objekte in jeder Klasse, und wir kennen die wahre Klassifizierung. Ich möchte an diesem Satz von 60 Trainingsbeispielen überwachtes …
Ich denke, dies ist eine einfache Frage, obwohl die Gründe dafür, warum oder warum nicht, möglicherweise nicht zutreffen. Der Grund, den ich frage, ist, dass ich kürzlich meine eigene Implementierung eines RF geschrieben habe und obwohl es gut funktioniert, funktioniert es nicht ganz so gut, wie ich es erwartet hatte …
Ich habe festgestellt, dass beim Erstellen zufälliger Waldregressionsmodelle, zumindest in R, der vorhergesagte Wert niemals den in den Trainingsdaten angezeigten Maximalwert der Zielvariablen überschreitet. Ein Beispiel finden Sie im folgenden Code. Ich erstelle ein Regressionsmodell, um mpgbasierend auf den mtcarsDaten Vorhersagen zu treffen . Ich baue OLS- und zufällige Waldmodelle …
Nach meinem Verständnis bestehen CNNs aus zwei Teilen. Der erste Teil (Conv / Pool-Schichten), der die Merkmalsextraktion durchführt, und der zweite Teil (fc-Schichten), der die Klassifizierung aus den Merkmalen vornimmt. Da vollständig verbundene neuronale Netze nicht die besten Klassifizierer sind (dh sie werden die meiste Zeit von SVMs und RFs …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.