Verwechseln Sie nicht den Umgang mit den Prädiktoren (über Basislerner, z. B. Stümpfe) und den Umgang mit der Verlustfunktion beim Boosten. Obwohl AdaBoost als Suche nach Kombinationen von Basislernern zur Minimierung von Fehlklassifizierungsfehlern angesehen werden kann, zeigt das von Ihnen zitierte Papier "Additive Logistic Regression" , dass es auch so formuliert werden kann, dass eine exponentielle Verlustfunktion minimiert wird. Diese Erkenntnis eröffnete den Boosting-Ansatz für eine breite Klasse von Problemen des maschinellen Lernens, die differenzierbare Verlustfunktionen durch Gradienten-Boosting minimieren . Die Residuen, die bei jedem Schritt angepasst werden, sind Pseudo-Residuen, die aus dem Gradienten der Verlustfunktion berechnet werden. Selbst wenn die Prädiktoren als binäre Stümpfe modelliert werden, muss die Ausgabe des Modells keine binäre Wahl sein.
Wie eine andere Antwort besagt, arbeiten Lernende mit linearer Basis möglicherweise nicht für das Boosten, aber Lernende mit linearer Basis sind weder im Standard- noch im logistischen Sinne für die "verstärkte Regression" erforderlich. Entscheidend nichtlineare Stümpfe können als langsame Basislerner kombiniert werden, um geeignete Verlustfunktionen zu minimieren. Es wird immer noch als "verstärkte Regression" bezeichnet, obwohl es weit von einem Standard-Regressionsmodell entfernt ist, das in den Koeffizienten der Prädiktoren linear ist. Die Verlustfunktion kann für lineare Modelle und "Boosted Regression" -Modelle mit Stümpfen oder Bäumen als Prädiktoren funktional gleich sein. Kapitel 8 der ISLR macht dies ziemlich deutlich.
Wenn Sie also eine logistische Regression wünschen, die einer verstärkten Regression entspricht, konzentrieren Sie sich eher auf die Verlustfunktion als auf die Basislerner. Dies ist der Ansatz des LogitBoost-Ansatzes in dem von Ihnen zitierten Artikel: Minimieren Sie einen Protokollverlust und nicht den in Adaboost implizierten exponentiellen Verlust. Die Wikipedia AdaBoost-Seite beschreibt diesen Unterschied.
Viele Teilnehmer dieser Website würden argumentieren, dass eine auf Log-Odds / Wahrscheinlichkeiten basierende Vorhersage einer strengen Ja / Nein-Klassifizierungsvorhersage vorzuziehen ist, da erstere im Allgemeinen unterschiedliche Kompromisse zwischen den zusätzlichen Kosten falsch-positiver und falsch-negativer Vorhersagen zulässt . Wie die Antwort auf Ihre verwandte Frage zeigt, ist es möglich, geschätzte Wahrscheinlichkeiten aus dem von AdaBoost abgeleiteten starken Klassifikator zu erhalten, aber LogitBoost bietet möglicherweise eine bessere Leistung.
Implementierungen der Gradientenverstärkung zur Klassifizierung können Informationen über die zugrunde liegenden Wahrscheinlichkeiten liefern. Diese Seite zum Gradienten-Boosting zeigt beispielsweise, wie sklearn
Code die Wahl zwischen Abweichungsverlust für die logistische Regression und Exponentialverlust für AdaBoost ermöglicht, und dokumentiert Funktionen zur Vorhersage von Wahrscheinlichkeiten aus dem Gradienten-Boosting-Modell.