Nachdem ich kürzlich mein Doktorandenprogramm in Statistik abgeschlossen hatte, hatte ich in den letzten Monaten begonnen, nach einer Arbeit im Bereich Statistik zu suchen. Fast jedes Unternehmen, das ich in Betracht zog, hatte eine Stellenanzeige mit der Berufsbezeichnung " Data Scientist ". Tatsächlich fühlte es sich so an, als wären die Tage, in denen man Berufsbezeichnungen von Statistical Scientist oder Statistician sah, lange vorbei . Hatte ein Data Scientist wirklich das ersetzt, was ein Statistiker war, oder fragte ich mich auch, welche Titel er trug?
Nun, die meisten Qualifikationen für die Jobs fühlten sich wie Dinge an, die sich unter dem Titel Statistiker qualifizieren würden. Die meisten Jobs wollten einen Doktortitel in Statistik ( ), die meisten benötigten Kenntnisse in experimentellem Design ( ), linearer Regression und Anova ( ), verallgemeinerten linearen Modellen ( ) und anderen multivariaten Methoden wie PCA ( ). sowie Kenntnisse in einer statistischen Computerumgebung wie R oder SAS ( ). Klingt so, als wäre ein Datenwissenschaftler eigentlich nur ein Codename für einen Statistiker.✓ ✓ ✓ ✓ ✓
Allerdings begann jedes Interview mit der Frage: "Kennen Sie sich mit Algorithmen für maschinelles Lernen aus?" In den meisten Fällen musste ich versuchen, Fragen zu Big Data, High Performance Computing und Themen zu neuronalen Netzen, CART, Support-Vektor-Maschinen, Boosten von Bäumen, unbeaufsichtigten Modellen usw. zu beantworten Im Grunde genommen statistische Fragen, aber am Ende jedes Interviews konnte ich nicht anders, als das Gefühl zu verlieren, ich wüsste immer weniger, was ein Datenwissenschaftler ist.
Ich bin ein Statistiker, aber bin ich ein Datenwissenschaftler? Ich arbeite an wissenschaftlichen Problemen, also muss ich Wissenschaftler sein! Und ich arbeite auch mit Daten, also muss ich ein Datenwissenschaftler sein! Und laut Wikipedia stimmen mir die meisten Akademiker zu ( https://en.wikipedia.org/wiki/Data_science , etc.)
Obwohl die Verwendung des Begriffs "Data Science" im Geschäftsumfeld explodiert ist, sehen viele Wissenschaftler und Journalisten keinen Unterschied zwischen Data Science und Statistik.
Aber wenn ich all diese Vorstellungsgespräche für eine Position als Datenwissenschaftler absolviere, warum fühlt es sich dann so an, als würden sie mir niemals statistische Fragen stellen?
Nun, nach meinem letzten Interview wollte ich, dass ein guter Wissenschaftler es tut, und ich suchte nach Daten, um dieses Problem zu lösen (hey, ich bin schließlich ein Datenwissenschaftler). Nach unzähligen Suchanfragen bei Google hatte ich jedoch das Gefühl, dass ich mich erneut mit der Definition eines Data Scientists auseinandersetzte. Ich wusste nicht, was ein Data Scientist genau ist, da es so viele Definitionen dafür gibt ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) aber anscheinend sagten mir alle, dass ich einer sein wollte:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- etc .... die Liste geht weiter.
Am Ende des Tages stellte ich fest, dass "Was ist ein Datenwissenschaftler?" Eine sehr schwer zu beantwortende Frage ist. Heck, es gab zwei ganze Monate in Amstat, in denen sie Zeit darauf verwendet haben, diese Frage zu beantworten:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Nun, ich muss ein sexy Statistiker sein, um ein Datenwissenschaftler zu sein, aber hoffentlich kann die Cross-Validated-Community etwas Licht ins Dunkel bringen und mir helfen, zu verstehen, was es bedeutet, ein Datenwissenschaftler zu sein. Sind nicht alle Statistiker Datenwissenschaftler?
(Bearbeiten / Aktualisieren)
Ich dachte, das könnte die Unterhaltung aufpeppen. Ich habe gerade eine E-Mail von der American Statistical Association erhalten, in der es um eine Stelle bei Microsoft geht, die einen Data Scientist sucht. Hier ist der Link: Data Scientist Position . Ich halte dies für interessant, da die Rolle der Position auf viele spezifische Merkmale zutrifft, über die wir gesprochen haben, aber ich denke, viele von ihnen erfordern einen sehr strengen Hintergrund in der Statistik und widersprechen auch vielen der unten aufgeführten Antworten. Falls der Link nicht mehr funktioniert, finden Sie hier die Eigenschaften, die Microsoft von einem Datenwissenschaftler erwartet:
Grundlegende Berufsanforderungen und Fähigkeiten:
Business Domain-Erfahrung mit Analytics
- Sie müssen Erfahrung in verschiedenen relevanten Geschäftsbereichen in der Nutzung kritischer Denkfähigkeiten zur Konzeption komplexer Geschäftsprobleme und ihrer Lösungen mithilfe fortschrittlicher Analysen in umfangreichen realen Geschäftsdatensätzen haben
- Der Kandidat muss in der Lage sein, Analyseprojekte unabhängig durchzuführen und unseren internen Kunden dabei zu helfen, die Ergebnisse zu verstehen und sie in Maßnahmen umzusetzen, die ihrem Geschäft zugute kommen.
Vorausschauende Modellierung
- Branchenübergreifende Erfahrung in der prädiktiven Modellierung
- Geschäftsproblemdefinition und konzeptionelle Modellierung mit dem Kunden, um wichtige Beziehungen zu ermitteln und den Systemumfang zu definieren
Statistik / Ökonometrie
- Explorative Datenanalyse für kontinuierliche und kategoriale Daten
- Spezifikation und Schätzung von Strukturmodellgleichungen für Unternehmens- und Verbraucherverhalten, Produktionskosten, Faktornachfrage, diskrete Auswahl und andere Technologiebeziehungen nach Bedarf
- Fortgeschrittene statistische Techniken zur Analyse kontinuierlicher und kategorialer Daten
- Zeitreihenanalyse und Implementierung von Prognosemodellen
- Kenntnisse und Erfahrungen in der Arbeit mit mehreren Variablen Probleme
- Fähigkeit zur Beurteilung der Modellkorrektheit und Durchführung diagnostischer Tests
- Fähigkeit zur Interpretation von Statistiken oder Wirtschaftsmodellen
- Kenntnisse und Erfahrungen in der Erstellung diskreter Ereignissimulationen und dynamischer Simulationsmodelle
Datenmanagement
- Vertrautheit mit der Verwendung von T-SQL und Analytics zur Datentransformation und der Anwendung explorativer Datenanalysetechniken für sehr große reale Datensätze
- Achtung der Datenintegrität, einschließlich Datenredundanz, Datengenauigkeit, abnormalen oder extremen Werten, Dateninteraktionen und fehlenden Werten.
Kommunikations- und Kollaborationsfähigkeiten
- Arbeiten Sie unabhängig und in der Lage, mit einem virtuellen Projektteam zusammenzuarbeiten, das nach innovativen Lösungen für herausfordernde Geschäftsprobleme sucht
- Arbeiten Sie mit Partnern zusammen, wenden Sie Fähigkeiten zum kritischen Denken an und treiben Sie Analyseprojekte durchgängig voran
- Hervorragende mündliche und schriftliche Kommunikationsfähigkeiten
- Visualisierung der Analyseergebnisse in einer Form, die von einer Vielzahl von Interessengruppen genutzt werden kann
Softwarepakete
- Erweiterte statistische / ökonometrische Softwarepakete: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Datenexploration, -visualisierung und -verwaltung: T-SQL, Excel, PowerBI und gleichwertige Tools
Qualifikationen:
- Mindestens 5 Jahre einschlägige Erfahrung erforderlich
- Ein Aufbaustudium im quantitativen Bereich ist wünschenswert.