Eine aktuelle Frage zu Alternativen zur logistischen Regression in R ergab eine Vielzahl von Antworten, darunter randomForest-, gbm-, rpart-, bayesglm- und generalisierte additive Modelle. Was sind die praktischen und interpretatorischen Unterschiede zwischen diesen Methoden und der logistischen Regression? Welche Annahmen treffen sie in Bezug auf die logistische Regression (oder nicht)? …
Meine Frage betrifft die binäre Klassifizierung, beispielsweise die Trennung von guten und schlechten Kunden, aber nicht die Regression oder nicht-binäre Klassifizierung. In diesem Zusammenhang ist ein zufälliger Wald ein Ensemble von Klassifizierungsbäumen. Für jede Beobachtung stimmt jeder Baum mit "Ja" oder "Nein", und die durchschnittliche Stimme aller Bäume ist die …
Ich verwende die Funktion randomForestin Rs randomForestPaket, um eine Regression durchzuführen. Wenn ich jedoch versuche, einen Interaktionsbegriff in die folgenden Codes aufzunehmen: library(MASS) library(randomForest) Boston_f <- within(Boston, factor(rad)) mdl <- randomForest(lstat ~ rad * . , data = Boston_f) Das Ergebnis mdl$termbeinhaltet zwar Interaktion, aber wenn ich in die Bäume …
Ich bin erstaunt, dass ich keine Artikel / Vorträge darüber finden kann, wie man Prior Class Probability Distributions in Klassifikatoren wie Logistic Regression oder Random Forest integrieren kann. Meine Frage lautet also: Wie kann die Wahrscheinlichkeitsverteilung früherer Klassen in logistische Regression oder zufällige Wälder einbezogen werden? Bedeutet die Einbeziehung der …
Für zufällige Gesamtstrukturen teilen wir den Knoten nach Gini-Verunreinigung oder Entropie für eine Reihe von Merkmalen auf. Mit dem RandomForestClassifier in sklearn können wir wählen, ob wir das Gini-Kriterium oder das Entropy-Kriterium verwenden möchten. Was ich jedoch über Extra-Trees Classifier gelesen habe, ist ein zufälliger Wert für die Aufteilung (ich …
Für lineare Modelle (wie lineare Regression, logistische Regression usw.) ist das Feature-Engineering ein wichtiger Schritt, um die Leistung der Modelle zu verbessern. Meine Frage ist, ist es wichtig, ob wir Feature-Engineering durchführen, während wir zufällige Gesamtstruktur- oder Gradienten-Boosting verwenden? Zugegeben, diese Modelle sind keine Deep-Learning-Modelle. aber , es scheint, dass …
Ich versuche, die Random Forest-Regression zu verwenden. Ich habe eine Antwortvariable: y = rnorm(10000, mean=0, sd=3) Und ein paar Prädiktorvariablen (die nur die Antwort mit zusätzlichem Rauschen sind): x = data.frame(v1=y + rnorm(10000, mean=0, sd=3), v2=y + rnorm(10000, mean=0, sd=3), v3=y + rnorm(10000, mean=0, sd=3)) Ich baue den zufälligen Wald: …
Verwenden wir in Entscheidungsbäumen bei der Klassifizierung oder Regression nur numerische Werte? Angenommen, ich habe eine kategoriale Spalte Windals Feature. Angenommen , ich habe am 5 Zeilen (Beobachtungen) und die Werte für Windsind [ high, low, high, medium, medium]. Kann ich diese kategorialen Daten in einen Entscheidungsbaumklassifikator (wie scikit-learn) einspeisen, …
Basierend auf Gradient Boosting Tree vs Random Forest . GBDT und RF verwenden unterschiedliche Strategien, um Verzerrung und Varianz zu bekämpfen. Meine Frage ist, ob ich einen Datensatz (mit Ersatz) erneut abtasten kann, um mehrere GBDT zu trainieren und ihre Vorhersagen als Endergebnis zu kombinieren. Es ist gleichbedeutend damit, eine …
Ich habe einen Datensatz mit 5.818.446 Zeilen und 51 Spalten, von denen 50 Prädiktoren sind. Meine Antwort ist quantitativ, daher interessiere ich mich für ein Regressionsmodell. Ich versuche, mithilfe des Caret-Pakets einen zufälligen Wald an meine Daten anzupassen. Ich habe jedoch nicht genug RAM, um dies zu tun. Ich habe …
In allen (Regressions-) zufälligen Waldpapieren, die ich gelesen habe, nehmen wir, wenn es an der Zeit ist, die Vorhersagen aller Bäume zu sammeln, den Durchschnittswert als Vorhersage. Meine Frage ist, warum wir das tun? Gibt es eine statistische Begründung für die Ermittlung des Durchschnitts? EDIT: Um die Frage zu klären, …
Ich habe eine Reihe von x, y-Daten, die ich zum Erstellen einer zufälligen Gesamtstruktur verwende. Die x-Daten sind ein Wertevektor, der einige NAs enthält. Also verwende ich rfImputedie fehlenden Daten und erstelle eine zufällige Gesamtstruktur. Jetzt habe ich eine neue unsichtbare Beobachtung x (mit einer NA) und möchte y vorhersagen. …
Ich habe diese Aussage oft gelesen, bin aber nie auf einen Beweis gestoßen. Ich würde gerne versuchen, selbst eine zu produzieren, bin mir aber nicht einmal sicher, welche Notation ich verwenden soll. Kann mir jemand dabei helfen?
Diese Frage hat hier bereits Antworten : Ist mein Modell basierend auf dem Wert der Diagnosemetrik ( / AUC / Genauigkeit / RMSE usw.) gut? R.2R2R^2 (3 Antworten) Geschlossen vor 7 Monaten . Ich habe Lerndaten, die aus ~ 45.000 Stichproben bestehen, jede hat 21 Funktionen. Ich versuche, einen zufälligen …
Ich bin ein Anfänger in der R- und Feature-Auswahl und habe versucht, mit dem Boruta-Paket meine Anzahl von Variablen auszuwählen (zu verringern) (n = 40). Ich dachte, dass diese Methode auch die mögliche Korrelation zwischen Variablen berücksichtigt, jedoch sind zwei (von den 20 ausgewählten Variablen) stark korreliert und zwei andere …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.