Als «xgboost» getaggte Fragen

Bei Fragen zum eXtreme Gradient Boosting-Algorithmus.


2
Wie ist die Ausgabe von XGBoost zu interpretieren?
Ich habe ein xgboost-Modell ausgeführt. Ich weiß nicht genau, wie ich die Ausgabe von interpretieren soll xgb.importance. Was ist die Bedeutung von Gain, Cover und Frequency und wie interpretieren wir sie? Was bedeuten Split, RealCover und RealCover%? Ich habe einige zusätzliche Parameter hier Gibt es andere Parameter, die mehr über …

1
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Hypertuning von XGBoost-Parametern
XGBoost hat hervorragende Arbeit geleistet, wenn es um den Umgang mit kategorialen und kontinuierlichen abhängigen Variablen geht. Aber wie wähle ich die optimierten Parameter für ein XGBoost-Problem aus? So habe ich die Parameter für ein aktuelles Kaggle-Problem angewendet: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, …
27 r  python  xgboost 

2
LightGBM vs XGBoost
Ich versuche zu verstehen, was besser ist (genauer, insbesondere bei Klassifizierungsproblemen) Ich habe nach Artikeln gesucht, die LightGBM und XGBoost vergleichen, aber nur zwei gefunden: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - es geht nur um Geschwindigkeit, aber nicht um Genauigkeit. https://github.com/Microsoft/LightGBM/wiki/Experiments - das ist von den Autoren von LightGBM und kein Wunder, dass LightGBM …
25 xgboost 


4
Behandelt XGBoost Multikollinearität selbstständig?
Ich verwende derzeit XGBoost für einen Datensatz mit 21 Features (ausgewählt aus einer Liste von ca. 150 Features). Anschließend werden diese per One-Hot-Code codiert, um ~ 98 Features zu erhalten. Einige dieser 98 Features sind etwas redundant, zum Beispiel: Eine Variable (Feature) auch als B angezeigtEINEINA undCBEINBEIN\frac{B}{A} .CEINCEIN\frac{C}{A} Meine Fragen …




1
XGBRegressor vs. xgboost.train großer Geschwindigkeitsunterschied?
Wenn ich mein Modell mit dem folgenden Code trainiere: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) es endet in ungefähr 1 Minute. Wenn ich mein Modell mit der …


2
Wie passen paarweise eingestufte Modelle in xgBoost?
Soweit ich weiß, müssen drei Dinge im Datensatz enthalten sein, um das Erlernen von Ranglistenmodellen zu trainieren: Label oder Relevanz Gruppen- oder Abfrage-ID Merkmalsvektor Beispielsweise verwendet das Microsoft Learning to Rank-Dataset dieses Format (Bezeichnung, Gruppen-ID und Funktionen). 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... Ich probiere xgBoost …
13 search  ranking  xgboost  gbm 

1
Merkmalsbedeutung mit kategorialen Merkmalen mit hoher Kardinalität für die Regression (numerisch abhängige Variable)
Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung für jede Ebene eine Dummy-Variable erstellt wird, gelten die Feature-Wichtigkeiten für …

3
Benötigen Sie Hilfe beim Verständnis des ungefähren Split-Points-Vorschlags von xgboost
Hintergrund: in xgboost der Iteration versucht , einen Baum zu passen f t über alle n Beispiele , die die folgende objektiv minimieren:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] wobei sind erste Ordnung und zweite Ordnung Derivate über unsere frühere beste Schätzung y (von Iteration t - 1 ):gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, …
12 xgboost  gbm 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.