Als «gbm» getaggte Fragen


1
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Behandelt XGBoost Multikollinearität selbstständig?
Ich verwende derzeit XGBoost für einen Datensatz mit 21 Features (ausgewählt aus einer Liste von ca. 150 Features). Anschließend werden diese per One-Hot-Code codiert, um ~ 98 Features zu erhalten. Einige dieser 98 Features sind etwas redundant, zum Beispiel: Eine Variable (Feature) auch als B angezeigtEINEINA undCBEINBEIN\frac{B}{A} .CEINCEIN\frac{C}{A} Meine Fragen …

2
Wie passen paarweise eingestufte Modelle in xgBoost?
Soweit ich weiß, müssen drei Dinge im Datensatz enthalten sein, um das Erlernen von Ranglistenmodellen zu trainieren: Label oder Relevanz Gruppen- oder Abfrage-ID Merkmalsvektor Beispielsweise verwendet das Microsoft Learning to Rank-Dataset dieses Format (Bezeichnung, Gruppen-ID und Funktionen). 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... Ich probiere xgBoost …
13 search  ranking  xgboost  gbm 

3
Benötigen Sie Hilfe beim Verständnis des ungefähren Split-Points-Vorschlags von xgboost
Hintergrund: in xgboost der Iteration versucht , einen Baum zu passen f t über alle n Beispiele , die die folgende objektiv minimieren:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] wobei sind erste Ordnung und zweite Ordnung Derivate über unsere frühere beste Schätzung y (von Iteration t - 1 ):gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, …
12 xgboost  gbm 
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.