Als «boosting» getaggte Fragen

Eine Familie von Algorithmen, die schwach prädiktive Modelle zu einem stark prädiktiven Modell kombinieren. Der gebräuchlichste Ansatz wird als Gradientenverstärkung bezeichnet, und die am häufigsten verwendeten schwachen Modelle sind Klassifizierungs- / Regressionsbäume.

1
Wie berechnet man die Konfidenzwerte in der Regression (mit zufälligen Wäldern / XGBoost) für jede Vorhersage in R?
Gibt es eine Möglichkeit, für jeden vorhergesagten Wert einen Konfidenzwert (wir können ihn auch als Konfidenzwert oder Wahrscheinlichkeit bezeichnen) zu erhalten, wenn Algorithmen wie Random Forests oder Extreme Gradient Boosting (XGBoost) verwendet werden? Angenommen, dieser Konfidenzwert reicht von 0 bis 1 und zeigt, wie sicher ich in Bezug auf eine …

1
Wie benutzt man einen Entscheidungsstumpf als schwachen Lernenden in Adaboost?
Ich möchte Adaboost mit Decision Stump implementieren. Ist es richtig, in jeder Iteration von Adaboost so viele Entscheidungsstümpfe wie die Funktionen unseres Datensatzes zu treffen? Wenn ich beispielsweise einen Datensatz mit 24 Funktionen habe, sollte ich in jeder Iteration 24 Entscheidungsstumpfklassifizierer haben? Oder sollte ich zufällig einige Funktionen auswählen und …

1
Wie berechnet die Gradientenverstärkung Wahrscheinlichkeitsschätzungen?
Ich habe versucht, den Gradienten zu verstehen, der das Lesen verschiedener Blogs und Websites fördert, und versucht, meine Antwort zu finden, indem ich zum Beispiel den XGBoost-Quellcode durchgesehen habe. Ich kann jedoch keine verständliche Erklärung dafür finden, wie Algorithmen zur Erhöhung des Gradienten Wahrscheinlichkeitsschätzungen erzeugen. Wie berechnen sie die Wahrscheinlichkeiten?

2
Wie verwende ich XGboost.cv mit der Optimierung von Hyperparametern?
Ich möchte die Hyperparameter von XGboost mithilfe der Kreuzvalidierung optimieren. Es ist jedoch nicht klar, wie man das Modell erhält xgb.cv. Zum Beispiel rufe ich objective(params)von an fmin. Dann wird das Modell montiert dtrainund validiert dvalid. Was ist, wenn ich KFold Crossvalidation verwenden möchte, anstatt zu trainieren dtrain? from hyperopt …

1
Zufälliger Wald gegen Adaboost
In Abschnitt 7 der Arbeit Random Forests (Breiman, 1999) stellt der Autor die folgende Vermutung auf: "Adaboost ist ein zufälliger Wald". Hat jemand dies bewiesen oder widerlegt? Was wurde getan, um diesen Beitrag von 1999 zu beweisen oder zu widerlegen?

2
Warum Adaboost mit Entscheidungsbäumen?
Ich habe ein wenig über das Verbessern von Algorithmen für Klassifizierungsaufgaben und insbesondere von Adaboost gelesen. Ich verstehe, dass der Zweck von Adaboost darin besteht, mehrere "schwache Lernende" aufzunehmen und durch eine Reihe von Iterationen von Trainingsdaten die Klassifizierer dazu zu bringen, Klassen vorherzusagen, bei denen die Modelle wiederholt Fehler …

3
So erhalten Sie das Konfidenzintervall für die Änderung des Populations-R-Quadrats
Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt Modell 1 hat drei Prädiktoren x1a, x2bundx2c Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren x2aundx2b Es gibt eine Populationsregressionsgleichung, bei der die erklärte Populationsvarianz für Modell 1 für Modell 2 . Die durch Modell …

1
Baumgröße in Gradientenbaumverstärkung
Die von Friedman vorgeschlagene Erhöhung des Gradientenbaums verwendet Entscheidungsbäume mit JEndknoten (= Blätter) als Basislerner. Es gibt eine Reihe von Möglichkeiten, einen Baum mit genau JKnoten zu züchten, zum Beispiel kann man den Baum in der Tiefe zuerst oder in der Breite zuerst züchten, ... Gibt es eine etablierte Methode, …
10 r  cart  boosting 

1
Wie arbeitet der lineare Basislerner beim Boosten? Und wie funktioniert es in der xgboost-Bibliothek?
Ich weiß, wie man lineare Zielfunktionen und lineare Boosts in XGBoost implementiert. Meine konkrete Frage lautet: Wenn der Algorithmus zum Residuum (oder zum negativen Gradienten) passt, verwendet er bei jedem Schritt ein Merkmal (dh ein univariates Modell) oder alle Merkmale (multivariates Modell)? Jeder Verweis auf die Dokumentation zu den linearen …

1
Abgleichen von Boosted-Regressionsbäumen (BRT), Generalized-Boosted-Modellen (GBM) und Gradienten-Boosting-Maschine (GBM)
Fragen: Was ist der Unterschied zwischen Boosted Regression Tree (BRT) und Generalized Boosted Models (GBM)? Können sie austauschbar verwendet werden? Ist das eine eine bestimmte Form des anderen? Warum verwendete Ridgeway den Ausdruck "Generalized Boosted Regression Models" (GBM), um zu beschreiben, was Friedman zuvor als "Gradient Boosting Machine" (GBM) vorgeschlagen …


2
Wie finde ich optimale Werte für die Abstimmungsparameter beim Boosten von Bäumen?
Mir ist klar, dass das Boosting-Tree-Modell 3 Tuning-Parameter enthält, d. H. die Anzahl der Bäume (Anzahl der Iterationen) Schrumpfungsparameter Anzahl der Teilungen (Größe der einzelnen Bäume) Meine Frage ist: Wie soll ich für jeden der Abstimmungsparameter den optimalen Wert finden? Und welche Methode? Beachten Sie Folgendes: Der Parameter für die …

1
Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Definition der Komplexität eines Baumes in xgboost
Als ich über den xgboost-Algorithmus recherchierte, ging ich die Dokumentation durch . Bei diesem Ansatz werden Bäume unter Verwendung der Komplexitätsdefinition wobei und Parameter sind, die Anzahl von ist Terminalblätter und ist die Punktzahl in jedem Blatt.Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 γγ\gammaλλ\lambdaTTTwjwjw_j Ich frage mich: …

3
Ist Feature Engineering wichtig, wenn Random Forest oder Gradient Boosting durchgeführt werden?
Für lineare Modelle (wie lineare Regression, logistische Regression usw.) ist das Feature-Engineering ein wichtiger Schritt, um die Leistung der Modelle zu verbessern. Meine Frage ist, ist es wichtig, ob wir Feature-Engineering durchführen, während wir zufällige Gesamtstruktur- oder Gradienten-Boosting verwenden? Zugegeben, diese Modelle sind keine Deep-Learning-Modelle. aber , es scheint, dass …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.