Durch Lesen der hervorragenden statistischen Modellierung: Die beiden Kulturen (Breiman 2001) können wir den Unterschied zwischen traditionellen statistischen Modellen (z. B. lineare Regression) und Algorithmen für maschinelles Lernen (z. B. Bagging, Random Forest, Boosted trees ...) erfassen.
Breiman kritisiert Datenmodelle (parametrisch), weil sie auf der Annahme beruhen, dass die Beobachtungen von einem bekannten, vom Statistiker vorgeschriebenen formalen Modell erzeugt werden, das die Natur möglicherweise schlecht nachahmt. Auf der anderen Seite nehmen ML-Algos kein formales Modell an und lernen die Assoziationen zwischen Eingabe- und Ausgabevariablen direkt aus den Daten.
Ich erkennen , dass Absackung / RF und Boosting, ist auch eine Art parametrischer: zum Beispiel ntree , mtry in RF, Lernrate , Tasche Fraktion , Baum Komplexität in Stochastic Gradient Boosted Bäume sind alle Tuning - Parameter . Wir schätzen diese Parameter auch aus den Daten, da wir die Daten verwenden, um die optimalen Werte dieser Parameter zu finden.
Was ist der Unterschied? Sind RF- und Boosted-Trees-Modelle parametrisch?