Was sind die praktischen und interpretatorischen Unterschiede zwischen Alternativen und logistischer Regression?

Eine aktuelle Frage zu Alternativen zur logistischen Regression in R ergab eine Vielzahl von Antworten, darunter randomForest-, gbm-, rpart-, bayesglm- und generalisierte additive Modelle. Was sind die praktischen und interpretatorischen Unterschiede zwischen diesen Methoden und der logistischen Regression? Welche Annahmen treffen sie in Bezug auf die logistische Regression (oder nicht)? Sind die für Hypothesentests geeignet? Etc.

r hypothesis-testing logistic random-forest

— russellpierce
quelle

Haftungsausschluss: Es ist sicherlich weit davon entfernt, eine vollständige Antwort auf die Frage zu sein!

Ich denke, es sind mindestens zwei Ebenen zu berücksichtigen, bevor zwischen all diesen Methoden unterschieden wird:

ob ein einzelnes Modell angepasst ist oder nicht: Dies hilft dabei, Methoden wie logistische Regression vs. RF oder Gradient Boosting (oder allgemeiner Ensemble-Methoden ) entgegenzuwirken und den Schwerpunkt auf die Parameterschätzung (mit zugehörigen asymptotischen oder Bootstrap-Konfidenzintervallen) vs. Klassifizierung oder zu legen Vorhersagegenauigkeitsberechnung;
$p$ $n$

Hier sind einige andere Punkte, die meiner Meinung nach für die Frage relevant sind.

Wenn wir mehrere Modelle betrachten - dasselbe Modell wird an verschiedene Teilmengen (Einzelpersonen und / oder Variablen) der verfügbaren Daten angepasst, oder verschiedene Wettbewerbsmodelle werden an denselben Datensatz angepasst -, kann eine Kreuzvalidierung verwendet werden, um dies zu vermeiden Überanpassung und Durchführung der Modell- oder Merkmalsauswahl, obwohl der Lebenslauf nicht auf diese speziellen Fälle beschränkt ist (er kann beispielsweise mit GAMs oder bestraften GLMs verwendet werden). Es gibt auch das traditionelle Interpretationsproblem: Komplexere Modelle implizieren häufig eine komplexere Interpretation (mehr Parameter, strengere Annahmen usw.).

Gradienten-Boosting und RFs überwinden die Einschränkungen eines einzelnen Entscheidungsbaums dank Boosting, dessen Hauptidee darin besteht, die Ausgabe mehrerer schwacher Lernalgorithmen zu kombinieren, um eine genauere und stabilere Entscheidungsregel zu erstellen, und Bagging, bei dem die Ergebnisse "gemittelt" werden neu abgetastete Datensätze. Insgesamt werden sie oft als eine Art Black Box im Vergleich zu "klassischen" Modellen angesehen, bei denen klare Spezifikationen für das Modell bereitgestellt werden (ich kann mir drei Klassen von Modellen vorstellen: parametrisch , semiparametrisch , nicht parametrisch ), aber Ich denke, die Diskussion unter diesem anderen Thema Die zwei Kulturen: Statistik vs. maschinelles Lernen? bieten interessante Gesichtspunkte.

Hier sind einige Artikel über die Auswahl von Funktionen und einige ML-Techniken:

Saeys, Y, Inza, I und Larrañaga, P. Eine Übersicht über Techniken zur Merkmalsauswahl in der Bioinformatik , Bioinformatics (2007) 23 (19): 2507-2517.
Dougherty, ER, Hua J und Sima, C. Durchführung von Merkmalsauswahlmethoden , Current Genomics (2009) 10 (6): 365–374.
Boulesteix, AL und Strobl, C. Optimale Klassifikatorauswahl und negative Verzerrung bei der Fehlerratenschätzung: Eine empirische Studie zur hochdimensionalen Vorhersage , BMC Medical Research Methodology (2009) 9:85.
Caruana, R und Niculescu-Mizil, A. Ein empirischer Vergleich von überwachten Lernalgorithmen . Vorträge der 23. Internationalen Konferenz über maschinelles Lernen (2006).
Friedman, J, Hastie, T und Tibshirani, R. Additive logistische Regression: Eine statistische Sicht auf Boosting , Ann. Statist. (2000) 28 (2): 337 & ndash; 407. (Mit Diskussion)
Olden, JD, Lawler, JJ und Poff, NL. Methoden des maschinellen Lernens ohne Tränen: eine Einführung für Ökologen , Q Rev Biol. (2008) 83 (2): 171 & ndash; 93.

Und natürlich ist The Elements of Statistical Learning von Hastie und Coll. Voller Illustrationen und Referenzen. Lesen Sie auch die Statistical Data Mining-Tutorials von Andrew Moore.

— chl
quelle