Statistiken und Big Data cart

9

Wissen aus einer zufälligen Gesamtstruktur abrufen

Zufällige Wälder gelten als Black Boxes, aber in letzter Zeit habe ich darüber nachgedacht, welches Wissen aus einem zufälligen Wald gewonnen werden kann. Das offensichtlichste ist die Wichtigkeit der Variablen. In der einfachsten Variante kann dies einfach durch Berechnen der Anzahl der Vorkommen einer Variablen erfolgen. Das zweite, woran ich …

127 machine-learning data-mining interaction random-forest cart

2

Steigung, die Baum gegen gelegentlichen Wald auflädt

Die von Friedman vorgeschlagene Gradientenbaumverstärkung verwendet Entscheidungsbäume als Basislerner. Ich frage mich, ob wir den Basisentscheidungsbaum so komplex wie möglich (ausgewachsen) oder einfacher gestalten sollen. Gibt es eine Erklärung für die Wahl? Random Forest ist eine weitere Ensemblemethode, bei der Entscheidungsbäume als Basislerner verwendet werden. Nach meinem Verständnis verwenden wir …

110 machine-learning random-forest cart boosting ensemble

1

Bedingte Inferenzbäume im Vergleich zu traditionellen Entscheidungsbäumen

Kann jemand die Hauptunterschiede zwischen bedingten Inferenzbäumen ( ctreeaus dem partyPaket in R) im Vergleich zu den traditionelleren Entscheidungsbaumalgorithmen (wie rpartin R) erklären ? Was unterscheidet CI-Bäume? Stärken und Schwächen? Update: Ich habe mir das Papier von Horthorn et al. Angesehen, auf das Chi in den Kommentaren Bezug nimmt. Ich …

97 r machine-learning cart

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Praktische Fragen zur Optimierung von Random Forests

Meine Fragen beziehen sich auf zufällige Wälder. Das Konzept dieses schönen Klassifikators ist mir klar, aber es gibt noch viele praktische Fragen zur Verwendung. Leider konnte ich keinen praktischen Leitfaden für RF finden (ich habe nach etwas wie "Ein praktischer Leitfaden für das Training eingeschränkter Boltzman-Maschinen" von Geoffrey Hinton gesucht, …

65 random-forest cart

3

Wie kann man einen Beispielbaum aus randomForest :: getTree () zeichnen? [geschlossen]

Jeder hat Bibliotheks- oder Codevorschläge, wie man tatsächlich ein paar Beispielbäume plottet : getTree(rfobj, k, labelVar=TRUE) (Ja, ich weiß, Sie sollten dies nicht operativ tun, RF ist eine Blackbox usw. usw. Ich möchte einen Baum visuell auf Fehler überprüfen, um festzustellen, ob sich Variablen nicht intuitiv verhalten Wie gut funktionieren …

62 r data-visualization random-forest cart

3

Was ist Abweichung? (speziell im WARENKORB / Teil)

Was ist "Abweichung", wie wird sie berechnet und wie werden sie in verschiedenen Bereichen der Statistik verwendet? Insbesondere interessiere ich mich persönlich für die Verwendung in CART (und die Implementierung in rpart in R). Ich frage dies, da der Wiki-Artikel etwas zu wünschen übrig lässt und Ihre Einsichten sehr willkommen …

45 r cart rpart deviance

4

Trainieren eines Entscheidungsbaums gegen unausgeglichene Daten

Ich bin neu im Data Mining und versuche, einen Entscheidungsbaum gegen einen Datensatz zu trainieren, der sehr unausgewogen ist. Ich habe jedoch Probleme mit der schlechten Vorhersagegenauigkeit. Die Daten bestehen aus Studenten, die Kurse studieren, und die Klassenvariable ist der Kursstatus, der zwei Werte hat - Zurückgezogen oder Aktuell. Alter …

43 classification cart unbalanced-classes accuracy

3

Warum sind Entscheidungsbäume nicht rechenintensiv?

In einer Einführung in das statistische Lernen mit Anwendungen in R schreiben die Autoren, dass das Anpassen eines Entscheidungsbaums sehr schnell ist, aber das ergibt für mich keinen Sinn. Der Algorithmus muss jedes Feature durchlaufen und auf jede mögliche Weise partitionieren, um die optimale Aufteilung zu finden. Bei numerischen Features …

38 cart

6

Warum erhalte ich einen Entscheidungsbaum mit 100% Genauigkeit?

Ich erhalte eine 100% ige Genauigkeit für meinen Entscheidungsbaum. Was mache ich falsch? Das ist mein Code: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] …

38 machine-learning python cart accuracy

4

Was ist die schwache Seite von Entscheidungsbäumen?

Entscheidungsbäume scheinen eine sehr verständliche Methode des maschinellen Lernens zu sein. Einmal erstellt, kann es leicht von einem Menschen inspiziert werden, was bei einigen Anwendungen von großem Vorteil ist. Was sind die praktischen Schwächen von Entscheidungsbäumen?

34 machine-learning nonparametric cart

1

Relative variable Bedeutung für das Boosting

Ich suche nach einer Erklärung, wie die relative variable Wichtigkeit in gradientenverstärkten Bäumen berechnet wird, die nicht allzu allgemein / simpel ist wie: Die Kennzahlen basieren auf der Häufigkeit, mit der eine Variable zum Teilen ausgewählt wurde, gewichtet durch die quadratische Verbesserung des Modells als Ergebnis jeder Teilung und gemittelt …

33 machine-learning data-mining predictive-models cart boosting

3

Wie reagieren Zufallswälder nicht auf Ausreißer?

In einigen Quellen, einschließlich dieser , habe ich gelesen , dass Random Forests unempfindlich gegenüber Ausreißern sind (wie es beispielsweise bei Logistic Regression und anderen ML-Methoden der Fall ist). Zwei Teile der Intuition sagen mir jedoch etwas anderes: Bei jeder Erstellung eines Entscheidungsbaums müssen alle Punkte klassifiziert werden. Dies bedeutet, …

33 random-forest bootstrap outliers cart

1

Was sind einige nützliche Richtlinien für GBM-Parameter?

Was sind einige nützliche Richtlinien zum Testen von Parametern (z. B. Interaktionstiefe, Kind, Abtastrate usw.) mit GBM? Nehmen wir an, ich habe 70-100 Features, eine Bevölkerung von 200.000 und ich beabsichtige, die Interaktionstiefe von 3 und 4 zu testen. Natürlich muss ich einige Tests durchführen, um zu sehen, welche Parameterkombination …

31 r hypothesis-testing cart boosting

4

Wie wird die „variable Wichtigkeit“ bei der Verwendung von CART gemessen / eingestuft? (speziell mit {rpart} von R)

Wenn Sie ein CART-Modell (insbesondere einen Klassifizierungsbaum) mit rpart (in R) erstellen, ist es häufig interessant zu wissen, welche Bedeutung die verschiedenen Variablen haben, die in das Modell eingeführt werden. Meine Frage lautet daher: Welche gängigen Maße gibt es für das Ranking / Messen der Variablenwichtigkeit von beteiligten Variablen in …

27 r classification model-selection cart rpart

Als «cart» getaggte Fragen