In Bezug auf Vorhersage begannen Statistik und maschinelles Lernen, das gleiche Problem aus verschiedenen Perspektiven zu lösen.
Grundsätzlich wird in der Statistik davon ausgegangen, dass die Daten von einem bestimmten stochastischen Modell erstellt wurden. Aus statistischer Sicht wird also ein Modell angenommen und unter verschiedenen Annahmen werden die Fehler behandelt und die Modellparameter und andere Fragen abgeleitet.
Maschinelles Lernen kommt aus der Perspektive der Informatik. Die Modelle sind algorithmisch und normalerweise sind nur sehr wenige Annahmen bezüglich der Daten erforderlich. Wir arbeiten mit Hypothesenraum und Lernvoreingenommenheit. Die beste Darstellung des maschinellen Lernens, die ich gefunden habe, ist in Tom Mitchells Buch " Maschinelles Lernen" enthalten .
Für eine umfassendere und vollständigere Vorstellung der beiden Kulturen lesen Sie das Leo Breiman-Papier mit dem Titel Statistical Modeling: The Two Cultures
Was jedoch hinzugefügt werden muss, ist, dass selbst wenn die beiden Wissenschaften mit unterschiedlichen Perspektiven begonnen haben, beide jetzt eine ganze Menge gemeinsamer Kenntnisse und Techniken teilen. Warum, weil die Probleme gleich waren, aber die Werkzeuge unterschiedlich waren. Daher wird maschinelles Lernen heute hauptsächlich aus statistischer Sicht behandelt (siehe das Buch Hasties, Tibshirani, Friedman The Elements of Statistical Learning aus Sicht des maschinellen Lernens mit einer statistischen Behandlung und vielleicht Kevin P. Murphys Buch Machine Learning: A. probabilistische Perspektive , um nur einige der besten heute erhältlichen Bücher zu nennen).
Sogar die Geschichte der Entwicklung dieses Feldes zeigt die Vorteile dieser Verschmelzung von Perspektiven. Ich werde zwei Ereignisse beschreiben.
Das erste ist die Erstellung von CART-Bäumen, die von Breiman mit einem soliden statistischen Hintergrund erstellt wurden. Etwa zur gleichen Zeit entwickelte Quinlan die Entscheidungsbaumsuite ID3, C45, See5 usw. mit mehr Informatik-Hintergrund. Jetzt werden sich sowohl diese Baumfamilien als auch die Ensemble-Methoden wie Absacken und Wälder ziemlich ähnlich.
Die zweite Geschichte handelt vom Boosten. Ursprünglich wurden sie von Freund und Shapire entwickelt, als sie AdaBoost entdeckten. Die Auswahl für das Design von AdaBoost wurde hauptsächlich aus rechnerischer Sicht getroffen. Selbst die Autoren haben nicht gut verstanden, warum es funktioniert. Nur 5 Jahre später beschrieb Breiman (wieder!) Das Adaboost-Modell aus statistischer Sicht und gab eine Erklärung dafür, warum das funktioniert. Seitdem haben verschiedene bedeutende Wissenschaftler mit beiden Hintergründen jene Ideen weiterentwickelt, die zu einer Vielzahl von Boosting-Algorithmen führten, wie logistisches Boosten, Gradienten-Boosten, sanftes Boosten und so weiter. Es ist jetzt schwer zu denken, ohne einen soliden statistischen Hintergrund zu steigern.
Generalisierte lineare Modelle sind eine statistische Entwicklung. Neue Bayes'sche Behandlungen bringen diesen Algorithmus jedoch auch auf den Spielplatz des maschinellen Lernens. Daher glaube ich, dass beide Behauptungen richtig sein könnten, da die Interpretation und Behandlung der Funktionsweise unterschiedlich sein könnte.