Probabilistische Programmierung gegen "traditionelle" ML

9

Ich habe im Github-Repo nach Pymc gesucht und dieses Notizbuch gefunden:

Variationsinferenz: Bayesianische Neuronale Netze

Der Autor lobt die Vorzüge der bayesianischen / probabilistischen Programmierung, sagt dann aber weiter:

Leider spielt die probabilistische Programmierung bei traditionellen ML-Problemen wie Klassifizierung oder (nichtlinearer) Regression häufig eine zweite Rolle (in Bezug auf Genauigkeit und Skalierbarkeit) gegenüber algorithmischeren Ansätzen wie dem Lernen von Ensembles (z. B. zufällige Wälder oder gradientenverstärkte Regressionsbäume). .

Könnte jemand bitte erklären:

Wenn diese Aussage im Allgemeinen wahr ist
Warum diese Aussage wahr ist

— RNs_Ghost
quelle

16

Dies trifft im Allgemeinen auf meine persönliche Erfahrung als professioneller Datenwissenschaftler zu.
Es ist wahr in meiner persönlichen Erfahrung, weil es das ist, was ich die meiste Zeit beobachte. Wenn Sie sich fragen, warum dies so geschieht, hat dies mehrere Gründe:
1. Viele traditionelle ML-Algorithmen sind heutzutage "von der Stange" erhältlich, einschließlich ausgefeilter Ensemble-Methoden, neuronaler Netze usw. Probabilistische Methoden erfordern immer noch häufig maßgeschneiderte Lösungen, die entweder in einem DSL wie Stan oder direkt in einer universellen Programmiersprache geschrieben sind.
2. Viele Menschen, die heutzutage in die Datenwissenschaft eintreten, haben einen technischen und naturwissenschaftlichen Hintergrund, wo sie über starke mathematische und "algorithmische" Fähigkeiten verfügen, aber nicht so viel Erfahrung oder Intuition mit Wahrscheinlichkeitsmodellierung haben. Es ist einfach nicht auf ihrem Radar und sie sind nicht so vertraut mit den Methoden und der Software, die erforderlich sind, um sie zu implementieren.
3. Eine "harte" Vorhersage aus einem Wahrscheinlichkeitsmodell zu treffen, beinhaltet entweder Handbewegung oder formale Entscheidungstheorie. KI-Forscher und hochbezahlte statistische Berater wissen dies und begrüßen es. Für den einfachen Datenwissenschaftler ist es jedoch nicht so einfach, sich an Ihren Manager zu wenden und über Verteilungen und Wahrscheinlichkeiten zu sprechen. Das Unternehmen (oder das automatisierte System, das Sie aufbauen) braucht nur eine verdammte Antwort. Das Leben ist nur viel einfacher, wenn Sie aufhören, sich über Wahrscheinlichkeiten und Dinge Gedanken zu machen. In diesem Fall könnten Sie sich genauso gut gar nicht erst darum kümmern.
4. Die probabilistische Modellierung ist häufig sehr rechenintensiv, insbesondere die Bayes'sche Modellierung, bei der geschlossene Lösungen ein seltener Luxus sind, und doppelt besonders bei "großen" Datensätzen. Ich würde nicht zögern, XGBoost für einen Datensatz mit 10 Millionen Zeilen auszuführen. Ich würde nicht einmal in Betracht ziehen, ein Stan-Modell für einen Datensatz mit 10 Millionen Zeilen auszuführen.

Angesichts aller oben beschriebenen Nachteile kann ein Datenwissenschaftler oder ein kleines Team von Datenwissenschaftlern mit weniger probabilistischen Techniken des maschinellen Lernens viel schneller iterieren und "gut genug" Ergebnisse erzielen.

Bearbeiten: Wie in den Kommentaren ausgeführt, könnten sowohl Nr. 1 als auch Nr. 2 darauf zurückzuführen sein, dass probabilistische Programmiermethoden bei realen Problemen noch keine Knockout-Leistung gezeigt haben. CNNs wurden populär, weil sie bestehende Techniken umgehauen haben.

Edit 2: Es scheint, dass Probabilistik für die Zeitreihenmodellierung immer beliebter wird , bei der Deep Learning nicht so effektiv zu sein scheint wie in anderen Bereichen.

— Shadowtalker
quelle

2

Gute Antwort. Der Kehrwert der Punkte 1 und 2 könnte jedoch ebenso gut argumentiert werden: Sie könnten durch die mangelnde praktische Leistung der probabilistischen Programmierung erklärt werden. Wenn ein PP-Papier herauskommt, das die Überlegenheit gegenüber dem Stand der Technik in einem Benchmark-Datensatz zeigt, wie es Krizhevskys Papier mit Convnets getan hat, werden viele über Nacht Bayesianer werden.

— P-Gn

Das ist ein wirklich guter Punkt @ user1735003

— shadowtalker

4

Der obige Punkt von ShadowTalker zu bekämpfen, wonach probabilistische ML noch nicht ganz dem Schnupftabak gewachsen ist, ist definitiv so wie er ist, aber es gab einige wirklich aufregende Fortschritte in Bezug auf Skalierbarkeit und Komplexität aufgrund von Variationsinferenzen, die definitiv immer noch auf dem neuesten Stand der Forschung sind. Ich denke, es bleibt eine interessante Frage, ob wir, wenn probabilistische ML die gleiche Leistung traditioneller Methoden liefern könnte, diese Methoden einheitlich bevorzugen würden. In vielerlei Hinsicht werden in einem geschätzten PML-Posterior so viel mehr Informationen übermittelt.

Unabhängig von der Antwort auf die obige Frage denke ich, dass die beiden Methoden in den kommenden Jahren in unterschiedlichen Nischen leben werden. Ich denke, dass traditionelle Methoden wahrscheinlich bis zu einem gewissen Grad einen Leistungsvorteil behalten werden, aber wenn wir uns tatsächlich Sorgen über die latenten Variablen (Unbekannte) in einem Problem machen, wird PML die richtige Maschinerie für den Job sein.

— JoeTheShmoe
quelle