Die Begriffe sind nebulös, weil sie neu sind
Da ich mich mitten in einer Jobsuche auf dem Gebiet der 'Datenwissenschaft' befinde, denke ich, dass hier zwei Dinge vor sich gehen. Erstens sind die Jobs neu, und es gibt keine festgelegten Definitionen für verschiedene Begriffe, sodass keine gemeinsame Vereinbarung über die Zuordnung von Begriffen zu Jobbeschreibungen besteht. Vergleichen Sie dies mit "Webentwickler" oder "Back-End-Entwickler". Dies sind zwei ähnliche Jobs, die einigermaßen gut vereinbart wurden und unterschiedliche Beschreibungen haben.
Zweitens wissen viele Leute, die die Stellenausschreibung und die ersten Interviews durchführen, nicht so genau, wofür sie eingestellt werden. Dies gilt insbesondere für kleine und mittlere Unternehmen, die Personalvermittler einstellen, um Bewerber für sie zu finden. Es sind diese Vermittler, die die Stellenbeschreibungen auf CareerBuilder oder in einem anderen Forum veröffentlichen. Das soll nicht heißen, dass viele von ihnen sich nicht auskennen, viele von ihnen kennen sich gut mit den Unternehmen aus, die sie vertreten, und den Anforderungen des Arbeitsplatzes. Ohne genau definierte Begriffe zur Beschreibung verschiedener spezifischer Berufe sind nebulöse Berufsbezeichnungen häufig die Folge.
Es gibt drei allgemeine Abteilungen des Feldes
Meiner Erfahrung nach gibt es drei allgemeine Bereiche des "Arbeitsplatzes" der Datenwissenschaft.
Die erste ist die Entwicklung der mathematischen und rechnerischen Techniken, die die Datenwissenschaft ermöglichen. Dies umfasst beispielsweise statistische Untersuchungen zu neuen Methoden des maschinellen Lernens, die Implementierung dieser Methoden und den Aufbau einer Computerinfrastruktur, um diese Methoden in der realen Welt anzuwenden. Dies ist die vom Kunden am weitesten entfernte Abteilung und die kleinste Abteilung. Ein Großteil dieser Arbeit wird von Wissenschaftlern oder Forschern der großen Unternehmen (Google, Facebook usw.) geleistet. Dies gilt zum Beispiel für die Entwicklung von TensorFlow von Google, für die Entwicklung von SPSS-Neuronalen Netzen von IBM oder für die nächste große Grafikdatenbank.
Die zweite Abteilung verwendet die zugrunde liegenden Tools, um anwendungsspezifische Pakete zu erstellen, um alle Datenanalysen durchzuführen, die durchgeführt werden müssen. Die Mitarbeiter werden beauftragt, Python oder R oder was auch immer zu verwenden, um Analysefunktionen für bestimmte Datensätze aufzubauen. Ein Großteil dieser Arbeit besteht meiner Erfahrung nach darin, die „Datenwäsche“ durchzuführen und Rohdaten in beliebiger Form in brauchbare Daten umzuwandeln. Ein weiterer großer Teil dieser Arbeit ist die Datenbasis; Finden Sie heraus, wie Sie die Daten so speichern können, dass auf sie in jeder Zeitachse zugegriffen werden kann, in der Sie sie benötigen. Dieser Job erfordert weniger Tools, sondern verwendet vorhandene Datenbanken, Statistiken und grafische Analysebibliotheken, um einige Ergebnisse zu erzielen.
Die dritte Abteilung erstellt Analysen aus den neu organisierten und zugänglichen Daten. Dies ist abhängig von Ihrer Organisation die kundenorientierteste Seite. Sie müssen Analysen erstellen, mit denen Führungskräfte Entscheidungen treffen können. Dies wäre die am wenigsten technische der drei Abteilungen; Viele Berufe sind zu diesem Zeitpunkt Hybriden zwischen der zweiten und dritten Abteilung, da die Datenwissenschaft noch in den Kinderschuhen steckt. Ich bin jedoch der festen Überzeugung, dass es in Zukunft eine sauberere Trennung zwischen diesen beiden Berufen geben wird, wobei die Menschen den zweiten Arbeitsplatz gewinnen, der eine Ausbildung auf der Basis von Technik, Informatik oder Statistik erfordert, und dieser dritte Arbeitsplatz nur eine allgemeine Ausbildung benötigt.
Im Allgemeinen könnten sich alle drei als "Data Scientist" bezeichnen, aber nur die ersten beiden könnten sich vernünftigerweise als "Machine Learning Engineer" bezeichnen.
Fazit
Vorerst müssen Sie selbst herausfinden, was jeder Job mit sich bringt. Mein jetziger Job stellte mich als "Analyst" ein, um maschinelles Lernen zu erlernen. Aber als wir zur Arbeit gingen, stellte sich heraus, dass die Datenbasis des Unternehmens nicht ausreichend war und dass ich jetzt wahrscheinlich 90% meiner Zeit damit verbringe, an den Datenbanken zu arbeiten. Meine Erfahrung mit maschinellem Lernen ist jetzt nur noch eine schnelle Aufgabe, indem ich alles durchsuche, was mir als am besten geeignet erscheint, und CSV-Dateien an die Analysten der dritten Abteilung schieße, um Powerpoint-Präsentationen für den Kunden zu erstellen.
Das Feld ist in Bewegung. Viele Unternehmen versuchen, ihre Prozesse um datenwissenschaftliche Entscheidungsprozesse zu erweitern, ohne jedoch genau zu wissen, was dies bedeutet. Es ist nicht ihre Schuld, es ist ziemlich schwer, die Zukunft vorherzusagen, und die Auswirkungen einer neuen Technologie sind nie sehr klar. Bis sich das Gebiet etabliert hat, werden viele Berufe selbst genauso nebulös sein wie die Ausdrücke, mit denen sie beschrieben werden.
Data scientist
klingt wie eine Bezeichnung mit wenig Klarheit darüber, was die eigentliche Arbeit sein wird, währendmachine learning engineer
es spezifischer ist. Im ersten Fall gibt Ihnen Ihr Unternehmen ein Ziel vor und Sie müssen herausfinden, welchen Ansatz (maschinelles Lernen, Bildverarbeitung, neuronales Netzwerk, Fuzzy-Logik usw.) Sie verwenden würden. Im zweiten Fall hat Ihr Unternehmen bereits eingegrenzt, welcher Ansatz verwendet werden muss.