Ein beliebter Boosting-Algorithmus und eine Softwarebibliothek (steht für "Extreme Gradient Boosting"). Boosting kombiniert schwach prädiktive Modelle zu einem stark prädiktiven Modell.
Ich habe klassenunausgeglichene Daten und möchte die Hyperparameter der verstärkten Locke mit xgboost optimieren. Fragen Gibt es für xgboost ein Äquivalent zu gridsearchcv oder randomsearchcv? Wenn nicht, was ist der empfohlene Ansatz, um die Parameter von xgboost zu optimieren?
Es gibt verschiedene Implementierungen der GBDT-Modellfamilie, wie z. GBM XGBoost LightGBM Catboost. Was sind die mathematischen Unterschiede zwischen diesen verschiedenen Implementierungen? Catboost scheint die anderen Implementierungen zu übertreffen, selbst wenn nur die Standardparameter gemäß dieser Benchmark verwendet werden , aber es ist immer noch sehr langsam. Ich vermute, dass catboost …
Nehmen Sie als Beispiel die objektive Funktion des XGBoost-Modells in der ttt -ten Iteration: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) where ℓℓ\ell is the loss function, ftftf_t is the ttt'th tree output and ΩΩ\Omega is the regularization. One of the (many) key steps for fast calculation is the approximation: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), where gigig_i and hihih_i …
Ich habe einen sehr unausgeglichenen Datensatz. Ich versuche den Tuning-Ratschlägen zu folgen und zu verwenden scale_pos_weight, bin mir aber nicht sicher, wie ich es tunen soll. Ich kann sehen, dass RegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight Ein Gradient einer positiven Probe wäre also einflussreicher. Dem xgboost-Artikel zufolge wird …
Die Definition des Parameters min_child_weight in xgboost lautet wie folgt: Mindestinstanzgewicht (hessisch), das ein Kind benötigt. Wenn der Baumpartitionsschritt zu einem Blattknoten führt, dessen Instanzgewicht kleiner als min_child_weight ist, gibt der Erstellungsprozess die weitere Partitionierung auf. Im linearen Regressionsmodus entspricht dies einfach der minimalen Anzahl von Instanzen, die in jedem …
Ich versuche zu verstehen, wie XGBoost funktioniert. Ich verstehe bereits, wie gradientenverstärkte Bäume auf Python Sklearn funktionieren. Was mir nicht klar ist, ist, ob XGBoost auf die gleiche Weise funktioniert, aber schneller, oder ob es grundlegende Unterschiede zwischen ihm und der Python-Implementierung gibt. Wenn ich diese Zeitung lese http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Für …
Ich arbeite mit vielen Algorithmen: RandomForest, DecisionTrees, NaiveBayes, SVM (Kernel = linear und rbf), KNN, LDA und XGBoost. Alle bis auf SVM waren ziemlich schnell. Dann wurde mir klar, dass die Feature-Skalierung erforderlich ist, um schneller arbeiten zu können. Dann begann ich mich zu fragen, ob ich dasselbe für die …
Es gibt viele Blog-Posts, YouTube-Videos usw. über die Idee , Bäume zu fangen oder zu vermehren . Mein allgemeines Verständnis ist, dass der Pseudocode für jedes ist: Absacken: Nehmen Sie N zufällige Stichproben von x% der Stichproben und y% der Merkmale Passen Sie Ihr Modell (z. B. Entscheidungsbaum) an jedes …
Angenommen, wir haben ein Binärklassifizierungsproblem mit hauptsächlich kategorialen Merkmalen. Wir verwenden ein nichtlineares Modell (z. B. XGBoost oder Random Forests), um es zu lernen. Sollte man sich immer noch Sorgen um Multi-Kollinearität machen? Warum? Wenn die Antwort auf das oben Gesagte zutrifft, wie sollte man dagegen vorgehen, wenn man bedenkt, …
Kürzlich habe ich den XGBoost-Algorithmus überprüft und festgestellt, dass dieser Algorithmus fehlende Daten (ohne Imputation) in der Trainingsphase verarbeiten kann. Ich habe mich gefragt, ob XGboost fehlende Daten verarbeiten kann (ohne dass eine Imputation erforderlich ist), wenn sie zur Vorhersage neuer Beobachtungen verwendet werden oder die fehlenden Daten unterstellt werden …
Ich habe versucht, den Gradienten zu verstehen, der das Lesen verschiedener Blogs und Websites fördert, und versucht, meine Antwort zu finden, indem ich zum Beispiel den XGBoost-Quellcode durchgesehen habe. Ich kann jedoch keine verständliche Erklärung dafür finden, wie Algorithmen zur Erhöhung des Gradienten Wahrscheinlichkeitsschätzungen erzeugen. Wie berechnen sie die Wahrscheinlichkeiten?
Ich weiß, wie man lineare Zielfunktionen und lineare Boosts in XGBoost implementiert. Meine konkrete Frage lautet: Wenn der Algorithmus zum Residuum (oder zum negativen Gradienten) passt, verwendet er bei jedem Schritt ein Merkmal (dh ein univariates Modell) oder alle Merkmale (multivariates Modell)? Jeder Verweis auf die Dokumentation zu den linearen …
Ich kann anhand der Beschreibung in der Dokumentation nicht vollständig verstehen, wie dieser Parameter funktioniert [max_delta_step [default = 0]] Maximaler Delta-Schritt, den wir für die Gewichtsschätzung jedes Baums zulassen. Wenn der Wert auf 0 gesetzt ist, gibt es keine Einschränkung. Wenn ein positiver Wert festgelegt ist, kann dies dazu beitragen, …
Experten! Vielleicht wissen Sie, wie man das Konfidenzintervall für xgboost berechnet? Eine klassische Formel mit T-Verteilung kann nicht helfen, da meine Daten nicht normal verteilt sind. Oder spielt das keine Rolle? Wenn Sie Literatur vorschlagen, ist dies sehr nützlich, aber auch Ansätze in R und Python (im Kontext der Bibliothek …
Ich habe versucht, eine zählabhängige Variable mit ungleichmäßiger Belichtung zu modellieren. Klassische glms würden log (Belichtung) als Offset verwenden, auch gbm, aber xgboost erlaubt bis jetzt keinen Offset ... Der Versuch, einen Nachteil in diesem Beispiel in crossvalidated ( Wohin geht der Offset in Poisson / negative binomiale Regression? ) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.