Unterschied zwischen linearer Regression beim maschinellen Lernen und dem statistischen Modell


7

Ich hatte das Verständnis, dass der Hauptunterschied zwischen maschinellem Lernen und statistischem Modell darin besteht, dass das spätere eine bestimmte Art der Datenverteilung "annimmt" und auf diesem unterschiedlichen Modellparadigma sowie statistischen Ergebnissen basiert, die wir erhalten (z. B. p-Werte, F-Statistik) , t-stat usw.). Beim maschinellen Lernen kümmern wir uns jedoch nicht um die Verteilung von Daten und interessieren uns mehr für Vorhersagen.

Als ich Mllib doc durchgesehen habe, habe ich festgestellt, dass wir für die lineare Regression eine Verteilung angeben. Aber Mllib ist ein Paket für maschinelles Lernen. Ich habe also folgende Fragen:

1) Ist mein Verständnis zwischen ML und statistischer Methode falsch?

2) Verwendet Spark statistische Modelle für lineare Regression und GLMs?

Vielen Dank!

Hinweis: Es gibt viele wunderbare Beiträge zum Unterschied zwischen maschinellem Lernen und statistischen Methoden. Dies hängt jedoch eher mit dem Funken MLLIB zusammen.

Antworten:


5
  1. Leider ist die von Ihnen beschriebene Zweiteilung ungültig. ML-Modelle definieren (fast immer) eine Antwortverteilung. Beispielsweise definiert die äußerst beliebte Maschinenbibliothek XGBoost zur Erhöhung des Gradienten bestimmte Lernziele (z. B. linear, logistisch, Poisson, Cox usw.).
  2. Die Implementierung von linearer Regression und GLMs in Spark's MLlib basiert definitiv auf der statistischen Standardtheorie für lineare Modelle. Zum Beispiel direkt aus pyspark/mllib/regression.pyden LinearRegressionWithSGDKommentaren zitieren : Train a linear regression model using Stochastic Gradient Descent (SGD). This solves the least squares regression formulation f(weights) = 1/(2n) ||A weights - y||^2 which is the mean squared error.Dies ist ein standardmäßiger linearer Regressionsalgorithmus für die Gaußsche Antwort. Die Implementierung des jeweiligen Algorithmus könnte so optimiert werden, dass er für sehr große Datenmengen funktioniert (siehe zum Beispiel diesen hervorragenden Thread zum Thema " Warum Gradientenabstieg für lineare Regression verwenden, wenn eine mathematische Lösung in geschlossener Form verfügbar ist? "), Aber die dahinter stehende Theorie Ein Algorithmus ist genau der gleiche.

Ich stimme user11852 zu. Ich möchte hinzufügen, dass eine Antwortverteilung auch in einem ML-Ansatz erforderlich ist, da Sie abhängig davon eine Verlust- / Kostenfunktion wählen.
Fabiob

Nur neugierig. Wenn ML-Methoden auch der Verteilung folgen, warum liefern sie dann keine p-Werte, t-Statis usw.? Abgesehen von der Tatsache, dass ML-Praktiker eher an der Vorhersage als an der detaillierten statistischen Signifikanz des Modells interessiert sind. Vielen Dank!
Beta

@Beta: So ziemlich du hast deine Nebenfrage beantwortet. Praktiker konzentrieren sich normalerweise auf die Vorhersage und müssen / wollen die Wirkung einer speziellen Variablen wie einer Behandlung / Intervention nicht isolieren. Auch in den meisten Fällen wird die Stichprobengröße als sehr groß angesehen, sodass wir (wahrscheinlich fälschlicherweise) erwarten, dass alles von (einiger) wirklicher Bedeutung ist.
usεr11852
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.