Ist maschinelles Lernen ein wichtiges Thema für jeden Statistiker? Es scheint, dass maschinelles Lernen Statistik ist. Warum erfordern Statistikprogramme (Studenten und Absolventen) kein maschinelles Lernen?
Ist maschinelles Lernen ein wichtiges Thema für jeden Statistiker? Es scheint, dass maschinelles Lernen Statistik ist. Warum erfordern Statistikprogramme (Studenten und Absolventen) kein maschinelles Lernen?
Antworten:
Maschinelles Lernen ist ein Spezialgebiet für hochdimensionale angewandte Statistik. Es erfordert auch umfangreiche Programmierkenntnisse, die für ein gutes quantitatives Programm nicht erforderlich sind, insbesondere auf der Bachelor-Ebene, aber in gewissem Maße auch auf der Hochschulebene. Es ist nur auf den Vorhersageaspekt der Statistik anwendbar, während der mathematischen Statistik sowie der inferentiellen und deskriptiven angewandten Statistik besondere Aufmerksamkeit zu widmen ist. Viele Programme bieten Studenten die Möglichkeit, sich intensiv mit maschinellem Lernen zu befassen (z. B. CMU), aber Industriestatistiker erhalten insgesamt selten die Möglichkeit, diese Tools anzuwenden, es sei denn, es gibt bestimmte hochkarätige technische Berufe.
Während ich vor kurzem viele Informationen über Wissenschaftler und maschinelles Lernen Positionen auf dem Arbeitsmarkt gesehen habe, ich glaube , die allgemeine Job - Beschreibung von „Statistiker“ erfordert keine Maschine Hintergrund lernen, aber nicht ein einwandfreies Verständnis der grundlegenden Statistiken erfordern, Inferenz und Kommunikation: diese sollten wirklich der Kern eines Absolventenstatistikprogramms sein. Maschinelles Lernen und Datenwissenschaften sind auch als Berufsbezeichnungen und als Disziplinen relativ neu. Es wäre ein Nachteil für diejenigen, die eine Anstellung als Statistiker suchen, ihre Problemlösungsstrategien in Richtung maschinelles Lernen zu beeinflussen, wenn dies in Unternehmen aus den Bereichen Wirtschaft / Pharma / Biowissenschaften in 10 oder 20 Jahren zumeist aufgegeben wird, um die Wirksamkeit zu beeinträchtigen.
Schließlich glaube ich nicht, dass maschinelles Lernen ein solides Verständnis der Statistik enorm verbessert. Die Statistik ist grundsätzlich ein bereichsübergreifender Bereich, und es ist wichtig, nichttechnische Experten auf Ihrem Gebiet (z. B. Ärzte, CFOs oder Administratoren) darüber zu informieren und zu überzeugen, warum Sie sich für die von Ihnen gewählte Methodik entschieden haben. Maschinelles Lernen ist ein derartiges hochtechnisches Nischenfeld, dass es in vielen angewandten Verfahren nur eine inkrementell bessere Leistung verspricht als Standardwerkzeuge und -techniken. Viele der Methoden des überwachten und unbeaufsichtigten Lernens werden von Nichtfachleuten (und sogar von einigen weniger ausgebildeten Fachleuten) als "Black Box" wahrgenommen. Wenn sie gebeten werden, ihre Wahl einer bestimmten Lernmethode zu verteidigen, gibt es Erklärungen, die unbegründet sind und auf keinen der angewandten problembedingten Umstände zurückgreifen.
OK, lassen Sie uns über den Elefanten der Statistik sprechen, wobei wir die Augen vor Augen haben, was wir von ein oder zwei Personen gelernt haben, mit denen wir in unseren Abschlussprogrammen eng zusammengearbeitet haben ...
Stat-Programme setzen voraus, was sie für richtig halten, das heißt, was das Wichtigste ist, was ihre Schüler in Anbetracht der begrenzten Zeit, die die Schüler für das Programm zur Verfügung haben, lernen sollen. Wenn Sie einen engen Bereich benötigen, müssen Sie sich von einigen anderen Bereichen verabschieden, die als gleich wichtig eingestuft werden können. Einige Programme erfordern eine messtheoretische Wahrscheinlichkeit, andere nicht. Einige erfordern eine Fremdsprache, die meisten Programme jedoch nicht. Einige Programme sehen das Bayes'sche Paradigma als das einzige, was es wert ist, studiert zu werden, aber die meisten nicht. Einige Programme wissen, dass der größte Bedarf an Statistikern in Umfragestatistiken besteht (zumindest in den USA), die meisten jedoch nicht. Biostat-Programme folgen dem Geld und bringen SAS + die Methoden bei, die sich leicht in den Medizin- und Pharmawissenschaften verkaufen lassen.
Für eine Person, die landwirtschaftliche Experimente entwirft, Umfragedaten über Telefonumfragen sammelt oder psychometrische Skalen validiert oder Krankheitsfallkarten in einem GIS erstellt, ist maschinelles Lernen eine abstrakte Kunst der Informatik, die sich sehr von Statistiken entfernt, mit denen sie täglich arbeiten Basis. Keiner dieser Menschen wird sofort einen Nutzen aus dem Erlernen von Support-Vektor-Maschinen oder zufälligen Wäldern ziehen.
Alles in allem ist maschinelles Lernen eine nette Ergänzung zu anderen Bereichen der Statistik, aber ich würde argumentieren, dass das Mainstream-Material wie multivariate Normalverteilung und verallgemeinerte lineare Modelle an erster Stelle stehen müssen.
Beim maschinellen Lernen geht es darum, Wissen zu gewinnen / aus Daten zu lernen. Ich arbeite beispielsweise mit Algorithmen für maschinelles Lernen, mit denen aus DNA-Microarray-Daten (z. B. Krebs oder Diabetes) einige Gene ausgewählt werden können, die möglicherweise an einer bestimmten Krankheit beteiligt sind. Wissenschaftler können diese Gene (gelernte Modelle) dann für eine frühzeitige Diagnose in der Zukunft verwenden (Klassifizierung nicht sichtbarer Proben).
Es gibt viele Statistiken, die mit maschinellem Lernen zu tun haben, aber es gibt Bereiche des maschinellen Lernens, für die keine Statistiken erforderlich sind (z. B. genetische Programmierung). In diesen Fällen benötigen Sie nur Statistiken, um festzustellen, ob sich ein Modell, das Sie mit maschinellem Lernen erstellt haben, statistisch signifikant von einem anderen Modell unterscheidet.
Meiner Meinung nach wäre eine Einführung in das maschinelle Lernen für Statistiker von Vorteil . Dies wird den Statistikern helfen, reale Szenarien der Anwendung von Statistiken zu sehen. Es sollte jedoch nicht obligatorisch sein . Sie können ein erfolgreicher Statistiker werden und Ihr ganzes Leben verbringen, ohne jemals in die Nähe des maschinellen Lernens gehen zu müssen!