Statistiken und Big Data xgboost

4

Wie werden Hyperparameter von xgboost-Bäumen optimiert?

Ich habe klassenunausgeglichene Daten und möchte die Hyperparameter der verstärkten Locke mit xgboost optimieren. Fragen Gibt es für xgboost ein Äquivalent zu gridsearchcv oder randomsearchcv? Wenn nicht, was ist der empfohlene Ansatz, um die Parameter von xgboost zu optimieren?

68 machine-learning cross-validation xgboost boosting

1

Mathematische Unterschiede zwischen GBM, XGBoost, LightGBM, CatBoost?

Es gibt verschiedene Implementierungen der GBDT-Modellfamilie, wie z. GBM XGBoost LightGBM Catboost. Was sind die mathematischen Unterschiede zwischen diesen verschiedenen Implementierungen? Catboost scheint die anderen Implementierungen zu übertreffen, selbst wenn nur die Standardparameter gemäß dieser Benchmark verwendet werden , aber es ist immer noch sehr langsam. Ich vermute, dass catboost …

33 boosting xgboost

1

XGBoost Loss Funktion Approximation mit Taylor Expansion

Nehmen Sie als Beispiel die objektive Funktion des XGBoost-Modells in der ttt -ten Iteration: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) where ℓℓ\ell is the loss function, ftftf_t is the ttt'th tree output and ΩΩ\Omega is the regularization. One of the (many) key steps for fast calculation is the approximation: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), where gigig_i and hihih_i …

28 optimization loss-functions boosting xgboost taylor-series

4

Was ist die richtige Verwendung von scale_pos_weight in xgboost für unausgeglichene Datasets?

Ich habe einen sehr unausgeglichenen Datensatz. Ich versuche den Tuning-Ratschlägen zu folgen und zu verwenden scale_pos_weight, bin mir aber nicht sicher, wie ich es tunen soll. Ich kann sehen, dass RegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight Ein Gradient einer positiven Probe wäre also einflussreicher. Dem xgboost-Artikel zufolge wird …

26 unbalanced-classes xgboost

1

Erklärung von min_child_weight im xgboost-Algorithmus

Die Definition des Parameters min_child_weight in xgboost lautet wie folgt: Mindestinstanzgewicht (hessisch), das ein Kind benötigt. Wenn der Baumpartitionsschritt zu einem Blattknoten führt, dessen Instanzgewicht kleiner als min_child_weight ist, gibt der Erstellungsprozess die weitere Partitionierung auf. Im linearen Regressionsmodus entspricht dies einfach der minimalen Anzahl von Instanzen, die in jedem …

23 machine-learning xgboost hessian

3

XGBoost vs Python Sklearn-Bäume wurden mit einem Anstieg versehen

Ich versuche zu verstehen, wie XGBoost funktioniert. Ich verstehe bereits, wie gradientenverstärkte Bäume auf Python Sklearn funktionieren. Was mir nicht klar ist, ist, ob XGBoost auf die gleiche Weise funktioniert, aber schneller, oder ob es grundlegende Unterschiede zwischen ihm und der Python-Implementierung gibt. Wenn ich diese Zeitung lese http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Für …

20 scikit-learn boosting gbm xgboost

3

Welche Algorithmen benötigen neben SVM eine Feature-Skalierung?

Ich arbeite mit vielen Algorithmen: RandomForest, DecisionTrees, NaiveBayes, SVM (Kernel = linear und rbf), KNN, LDA und XGBoost. Alle bis auf SVM waren ziemlich schnell. Dann wurde mir klar, dass die Feature-Skalierung erforderlich ist, um schneller arbeiten zu können. Dann begann ich mich zu fragen, ob ich dasselbe für die …

17 machine-learning svm random-forest naive-bayes xgboost

1

Boosten und Absacken von Bäumen (XGBoost, LightGBM)

Es gibt viele Blog-Posts, YouTube-Videos usw. über die Idee , Bäume zu fangen oder zu vermehren . Mein allgemeines Verständnis ist, dass der Pseudocode für jedes ist: Absacken: Nehmen Sie N zufällige Stichproben von x% der Stichproben und y% der Merkmale Passen Sie Ihr Modell (z. B. Entscheidungsbaum) an jedes …

16 cart boosting xgboost bagging

4

Sollte man sich Gedanken über Multi-Kollinearität machen, wenn man nichtlineare Modelle verwendet?

Angenommen, wir haben ein Binärklassifizierungsproblem mit hauptsächlich kategorialen Merkmalen. Wir verwenden ein nichtlineares Modell (z. B. XGBoost oder Random Forests), um es zu lernen. Sollte man sich immer noch Sorgen um Multi-Kollinearität machen? Warum? Wenn die Antwort auf das oben Gesagte zutrifft, wie sollte man dagegen vorgehen, wenn man bedenkt, …

13 classification random-forest multicollinearity xgboost

1

XGBoost kann fehlende Daten in der Prognosephase verarbeiten

Kürzlich habe ich den XGBoost-Algorithmus überprüft und festgestellt, dass dieser Algorithmus fehlende Daten (ohne Imputation) in der Trainingsphase verarbeiten kann. Ich habe mich gefragt, ob XGboost fehlende Daten verarbeiten kann (ohne dass eine Imputation erforderlich ist), wenn sie zur Vorhersage neuer Beobachtungen verwendet werden oder die fehlenden Daten unterstellt werden …

11 machine-learning missing-data data-imputation xgboost

1

Wie berechnet die Gradientenverstärkung Wahrscheinlichkeitsschätzungen?

Ich habe versucht, den Gradienten zu verstehen, der das Lesen verschiedener Blogs und Websites fördert, und versucht, meine Antwort zu finden, indem ich zum Beispiel den XGBoost-Quellcode durchgesehen habe. Ich kann jedoch keine verständliche Erklärung dafür finden, wie Algorithmen zur Erhöhung des Gradienten Wahrscheinlichkeitsschätzungen erzeugen. Wie berechnen sie die Wahrscheinlichkeiten?

11 machine-learning classification boosting ensemble xgboost

1

Wie arbeitet der lineare Basislerner beim Boosten? Und wie funktioniert es in der xgboost-Bibliothek?

Ich weiß, wie man lineare Zielfunktionen und lineare Boosts in XGBoost implementiert. Meine konkrete Frage lautet: Wenn der Algorithmus zum Residuum (oder zum negativen Gradienten) passt, verwendet er bei jedem Schritt ein Merkmal (dh ein univariates Modell) oder alle Merkmale (multivariates Modell)? Jeder Verweis auf die Dokumentation zu den linearen …

9 regression machine-learning boosting xgboost

1

max_delta_step in xgboost

Ich kann anhand der Beschreibung in der Dokumentation nicht vollständig verstehen, wie dieser Parameter funktioniert [max_delta_step [default = 0]] Maximaler Delta-Schritt, den wir für die Gewichtsschätzung jedes Baums zulassen. Wenn der Wert auf 0 gesetzt ist, gibt es keine Einschränkung. Wenn ein positiver Wert festgelegt ist, kann dies dazu beitragen, …

9 xgboost

1

Konfidenzintervall für xgb-Prognose

Experten! Vielleicht wissen Sie, wie man das Konfidenzintervall für xgboost berechnet? Eine klassische Formel mit T-Verteilung kann nicht helfen, da meine Daten nicht normal verteilt sind. Oder spielt das keine Rolle? Wenn Sie Literatur vorschlagen, ist dies sehr nützlich, aber auch Ansätze in R und Python (im Kontext der Bibliothek …

8 confidence-interval xgboost

2

Poisson xgboost mit Exposition

Ich habe versucht, eine zählabhängige Variable mit ungleichmäßiger Belichtung zu modellieren. Klassische glms würden log (Belichtung) als Offset verwenden, auch gbm, aber xgboost erlaubt bis jetzt keinen Offset ... Der Versuch, einen Nachteil in diesem Beispiel in crossvalidated ( Wohin geht der Offset in Poisson / negative binomiale Regression? ) …

8 r caret poisson-regression offset xgboost

Als «xgboost» getaggte Fragen