Leider liegt der Unterschied zwischen diesen Bereichen hauptsächlich darin, wo sie unterrichtet werden: Statistiken basieren auf mathematischen Abteilungen, Ai, maschinellem Lernen in Informatikabteilungen und Data Mining wird häufiger angewendet (von Geschäfts- oder Marketingabteilungen verwendet, von Softwarefirmen entwickelt). .
Erstens hat KI (obwohl es jedes intelligente System bedeuten könnte) traditionell eher logische Ansätze (z. B. Expertensysteme) als statistische Schätzungen gemeint. Die auf Mathematik basierende Statistik verfügt über ein sehr gutes theoretisches Verständnis sowie über umfangreiche praktische Erfahrungen in den experimentellen Wissenschaften, in denen ein klares wissenschaftliches Modell vorliegt. Für den Umgang mit den begrenzten verfügbaren experimentellen Daten ist eine Statistik erforderlich. Der Fokus lag oft darauf, die maximale Information aus sehr kleinen Datenmengen herauszuholen. Darüber hinaus gibt es eine Tendenz zu mathematischen Beweisen: Sie werden nicht veröffentlicht, wenn Sie nicht beweisen können, wie Sie vorgehen. Dies hat tendenziell dazu geführt, dass die Statistiken bei der Verwendung von Computern zur Automatisierung der Analyse zurückgeblieben sind. Nochmal, Der Mangel an Programmierkenntnissen hat Statistiker daran gehindert, große Probleme zu bearbeiten, bei denen Rechenprobleme wichtig werden (siehe GPUs und verteilte Systeme wie Hadoop). Ich glaube, Bereiche wie die Bioinformatik haben die Statistik jetzt mehr in diese Richtung bewegt. Abschließend würde ich sagen, dass Statistiker eher skeptisch sind: Sie behaupten nicht, dass Sie Wissen mit Statistiken entdecken - vielmehr kommt ein Wissenschaftler auf eine Hypothese, und der Statistiker hat die Aufgabe, zu überprüfen, ob die Hypothese von den Daten gestützt wird. Maschinelles Lernen wird in cs-Abteilungen unterrichtet, die leider nicht die entsprechende Mathematik unterrichten: Multivariable Berechnung, Wahrscheinlichkeit, Statistik und Optimierung sind nicht alltäglich ... man hat vage "glamouröse" Konzepte wie das Lernen aus Beispielen ...Elemente des statistischen Lernens Seite 30. Dies bedeutet in der Regel, dass es sehr wenig theoretisches Verständnis und eine Explosion von Algorithmen gibt, da Forscher immer einen Datensatz finden können, auf dem sich ihr Algorithmus als besser erweist. Es gibt also enorme Hype-Phasen, in denen ML-Forscher die nächste große Sache verfolgen: Neuronale Netze, Deep Learning usw. Leider gibt es in CS-Abteilungen viel mehr Geld (denken Sie an Google, Microsoft und das marktfähigere "Lernen") skeptischere Statistiker werden ignoriert. Schließlich gibt es eine empirische Tendenz: Grundsätzlich gibt es die Überzeugung, dass, wenn Sie genügend Daten auf den Algorithmus werfen, die richtigen Vorhersagen „gelernt“ werden. Während ich gegen ML voreingenommen bin, gibt es eine grundlegende Einsicht in ML, die Statistiker ignoriert haben: Dass Computer die Anwendung von Statistiken revolutionieren können.
Es gibt zwei Möglichkeiten: a) Automatisieren der Anwendung von Standardtests und -modellen. ZB eine Reihe von Modellen ausführen (lineare Regression, zufällige Gesamtstrukturen usw., wobei verschiedene Kombinationen von Eingaben, Parametereinstellungen usw. versucht werden). Das ist nicht wirklich passiert - obwohl ich vermute, dass Konkurrenten auf kaggle ihre eigenen Automatisierungstechniken entwickeln. b) Anwenden statistischer Standardmodelle auf große Datenmengen: Denken Sie beispielsweise an Google Translate, Recommender-Systeme usw. (niemand behauptet, dass z. B. Menschen so übersetzen oder empfehlen ... aber es ist ein nützliches Werkzeug). Die zugrunde liegenden statistischen Modelle sind unkompliziert, aber die Anwendung dieser Methoden auf Milliarden von Datenpunkten ist mit enormen Rechenproblemen verbunden.
Data Mining ist der Höhepunkt dieser Philosophie ... die Entwicklung automatisierter Methoden zum Extrahieren von Wissen aus Daten. Es hat jedoch einen praktischeren Ansatz: Im Wesentlichen wird es auf Verhaltensdaten angewendet, bei denen es keine übergreifende wissenschaftliche Theorie gibt (Marketing, Betrugserkennung, Spam usw.) und das Ziel ist, die Analyse großer Datenmengen zu automatisieren: ohne Zweifel a Statistikteams könnten bei genügend Zeit bessere Analysen erstellen, aber es ist kostengünstiger, einen Computer zu verwenden. Wie D. Hand erklärt, handelt es sich außerdem um die Analyse von Sekundärdaten - Daten, die ohnehin protokolliert werden, und nicht um Daten, die explizit gesammelt wurden, um eine wissenschaftliche Frage in einem soliden Versuchsaufbau zu beantworten. Data Mining-Statistiken und mehr, D Hand
Ich würde also zusammenfassen, dass traditionelle KI eher logisch als statistisch ist, maschinelles Lernen Statistiken ohne Theorie und Statistik "Statistiken ohne Computer" ist und Data Mining die Entwicklung automatisierter Tools für statistische Analysen mit minimalem Benutzereingriff ist.