Statistiken und Big Data cart

5

Random Forest- und Decision Tree-Algorithmus

Ein zufälliger Wald ist eine Sammlung von Entscheidungsbäumen, die dem Absackkonzept folgen. Wenn wir von einem Entscheidungsbaum zum nächsten übergehen, wie werden dann die Informationen, die der letzte Entscheidungsbaum gelernt hat, zum nächsten weitergeleitet? Denn meines Wissens gibt es nichts Vergleichbares wie ein trainiertes Modell, das für jeden Entscheidungsbaum erstellt …

12 machine-learning random-forest cart bagging

3

Warum ist die Boosting-Methode empfindlich gegenüber Ausreißern?

Ich habe viele Artikel gefunden, die besagen, dass Boosting-Methoden empfindlich gegenüber Ausreißern sind, aber keinen Artikel, der erklärt, warum. Meiner Erfahrung nach sind Ausreißer für jeden Algorithmus für maschinelles Lernen schlecht, aber warum werden Boosting-Methoden als besonders empfindlich eingestuft? Wie würden die folgenden Algorithmen in Bezug auf die Empfindlichkeit gegenüber …

12 machine-learning svm outliers cart boosting

1

Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie?

Was ist eine bessere Kostenfunktion für einen zufälligen Waldbaum: Gini-Index oder Entropie? Ich versuche, zufällige Gesamtstruktur in Clojure zu implementieren.

12 classification random-forest cart

1

Unterschied in der Implementierung von binären Teilungen in Entscheidungsbäumen

Ich bin gespannt auf die praktische Umsetzung einer binären Aufteilung in einem Entscheidungsbaum - bezogen auf Ebenen eines kategorialen Prädiktors .XjXjX{j} Insbesondere verwende ich beim Erstellen eines Vorhersagemodells unter Verwendung eines Entscheidungsbaums oft ein Stichprobenverfahren (z. B. Absacken, Überstichproben usw.), um die Genauigkeit und Stabilität der Vorhersage zu verbessern. Während …

12 cart rpart partitioning

2

Zeigen zufällige Wälder eine Vorhersageverzerrung?

Ich denke, dies ist eine einfache Frage, obwohl die Gründe dafür, warum oder warum nicht, möglicherweise nicht zutreffen. Der Grund, den ich frage, ist, dass ich kürzlich meine eigene Implementierung eines RF geschrieben habe und obwohl es gut funktioniert, funktioniert es nicht ganz so gut, wie ich es erwartet hatte …

12 algorithms random-forest cart

2

Entscheidungsbäume und Regression - Können vorhergesagte Werte außerhalb des Bereichs der Trainingsdaten liegen?

Kann der vorhergesagte Wert bei Entscheidungsbäumen außerhalb des Bereichs der Trainingsdaten liegen? Wenn der Trainingsdatensatzbereich der Zielvariablen beispielsweise 0-100 beträgt, können meine Werte beim Generieren und Anwenden meines Modells auf etwas anderes -5 sein? oder 150? Da ich die Regression von Entscheidungsbäumen so verstehe, dass sie immer noch auf Regeln …

11 regression predictive-models random-forest cart

1

Wann wird Gini-Verunreinigung verwendet und wann wird Informationsgewinn verwendet?

Kann mir bitte jemand erklären, wann Gini-Verunreinigung und Informationsgewinn für Entscheidungsbäume verwendet werden sollen? Können Sie mir Situationen / Beispiele geben, wann welche am besten zu verwenden ist?

11 machine-learning classification data-mining cart

2

Algorithmen für maschinelles Lernen für Paneldaten

In dieser Frage - Gibt es eine Methode zum Erstellen von Entscheidungsbäumen, die strukturierte / hierarchische / mehrstufige Prädiktoren berücksichtigt? - Sie erwähnen eine Paneldatenmethode für Bäume. Gibt es spezielle Paneldatenmethoden zur Unterstützung von Vektormaschinen und neuronalen Netzen? Wenn ja, können Sie einige Artikel zu den Algorithmen und (falls verfügbar) …

11 r machine-learning svm panel-data cart

3

Klassifizierungsmodell für die Vorhersage von Filmbewertungen

Ich bin etwas neu im Data Mining und arbeite an einem Klassifizierungsmodell für die Vorhersage von Filmbewertungen. Ich habe Datensätze aus der IMDB gesammelt und plane, für mein Modell Entscheidungsbäume und Ansätze für den nächsten Nachbarn zu verwenden. Ich möchte wissen, welches frei verfügbare Data Mining-Tool die von mir benötigte …

11 classification cart

2

MCMC-Stichprobe des Entscheidungsbaumraums im Vergleich zur zufälligen Gesamtstruktur

Eine zufällige Gesamtstruktur ist eine Sammlung von Entscheidungsbäumen, die gebildet werden, indem nur bestimmte Merkmale zufällig ausgewählt werden, mit denen jeder Baum erstellt werden soll (und manchmal die Trainingsdaten eingesackt werden). Anscheinend lernen und verallgemeinern sie gut. Hat jemand eine MCMC-Stichprobe des Entscheidungsbaumraums erstellt oder diese mit zufälligen Wäldern verglichen? …

11 mcmc monte-carlo random-forest cart

2

Einen Klassifikationsbaum (in rpart) in ein Regelwerk organisieren?

Gibt es eine Möglichkeit, nach Erstellung eines komplexen Klassifizierungsbaums mit rpart (in R) die für jede Klasse erstellten Entscheidungsregeln zu organisieren? Anstatt also einen riesigen Baum zu bekommen, bekommen wir eine Reihe von Regeln für jede der Klassen? (Wenn das so ist, wie?) Hier ist ein einfaches Codebeispiel, um Beispiele …

11 r classification cart rpart

3

Gibt es Bibliotheken für CART-ähnliche Methoden, die spärliche Prädiktoren und Antworten verwenden?

Ich arbeite mit einigen großen Datenmengen unter Verwendung des gbm-Pakets in R. Sowohl meine Prädiktormatrix als auch mein Antwortvektor sind ziemlich spärlich (dh die meisten Einträge sind Null). Ich hatte gehofft, Entscheidungsbäume mit einem Algorithmus zu erstellen, der diese Spärlichkeit ausnutzt, wie hier ). In diesem Artikel haben, wie in …

11 r regression machine-learning classification cart

2

Warum hat ein Sackbaum / zufälliger Waldbaum eine höhere Tendenz als ein einzelner Entscheidungsbaum?

Wenn wir einen ausgewachsenen Entscheidungsbaum (dh einen nicht beschnittenen Entscheidungsbaum) betrachten, weist er eine hohe Varianz und eine geringe Verzerrung auf. Bagging und Random Forests verwenden diese Modelle mit hoher Varianz und aggregieren sie, um die Varianz zu verringern und damit die Vorhersagegenauigkeit zu verbessern. Sowohl Bagging als auch Random …

11 variance random-forest cart bias bagging

1

R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?

Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Wie benutzt man einen Entscheidungsstumpf als schwachen Lernenden in Adaboost?

Ich möchte Adaboost mit Decision Stump implementieren. Ist es richtig, in jeder Iteration von Adaboost so viele Entscheidungsstümpfe wie die Funktionen unseres Datensatzes zu treffen? Wenn ich beispielsweise einen Datensatz mit 24 Funktionen habe, sollte ich in jeder Iteration 24 Entscheidungsstumpfklassifizierer haben? Oder sollte ich zufällig einige Funktionen auswählen und …

11 machine-learning classification cart boosting

Als «cart» getaggte Fragen