Verwenden Datenwissenschaftler Excel?


37

Ich würde mich als Gesellen-Datenwissenschaftler bezeichnen. Wie die meisten (glaube ich) habe ich meine ersten Diagramme erstellt und meine ersten Aggregationen in der Schule und am College mit Excel durchgeführt. Als ich das College, die Graduiertenschule und ~ 7 Jahre Berufserfahrung hinter mir hatte, lernte ich schnell etwas, was ich für fortgeschrittene Tools halte, wie SQL, R, Python, Hadoop, LaTeX usw.

Wir interviewen für eine Position als Datenwissenschaftler und ein Kandidat wirbt als "Senior Data Scientist" (heutzutage ein sehr lebhafter Begriff) mit mehr als 15 Jahren Erfahrung. Auf die Frage, was sein bevorzugtes Toolset sei, antwortete er, dass es sich um Excel handele.

Ich nahm dies als Beweis dafür, dass er nicht so erfahren war, wie es sein Lebenslauf behauptete, war mir aber nicht sicher. Nur weil es nicht mein bevorzugtes Werkzeug ist, heißt das nicht, dass es nicht dem anderer gehört. Verwenden erfahrene Datenwissenschaftler Excel? Können Sie einen Mangel an Erfahrung von jemandem vermuten, der hauptsächlich Excel verwendet?


Die meisten Data Science-Stellenanzeigen verlangen nach bestimmten Fähigkeiten, wie R, Hadoop, was auch immer. Haben Sie es versäumt, dies in Ihrer Anzeige zu erwähnen? Wenn Ihr neuer Data Scientist nicht in einer Blase arbeitet, muss er oder sie mit dem Team arbeiten und muss wahrscheinlich mit der Standard-Team-Software arbeiten ...
Spacedman

1
gut, wenn sie dann nicht verwenden, \LaTeX{}würde ich sie nicht einstellen. nur ein Scherz ...
aeroNotAuto

1
@Spacedman: Ich habe die Geschichte für einen anekdotischen Kontext bereitgestellt, bin aber mehr an den Ansichten der Leute zu Excel interessiert, als an Tipps für die Einstellung. Unser Team steht es frei, die von uns gewünschten Tools zu verwenden.
JHowIX

1
Ja, siehe hier . Zum Witzgeschädigten siehe auch hier .
Dirk Eddelbuettel

1
Unabhängig von den angegebenen Jahren würde ich von einem Datenwissenschaftler eine Pro / Con-Liste mit mindestens drei Tools erwarten. Sie müssen nachweisen können, dass sie nachforschen, Optionen gewichten und Lösungen kommunizieren können. Sogar oder besonders in einem Interview würde ich erwarten, dass es ein echtes Engagement und eine Fähigkeit gibt, über eine potenziell große, aber derzeit fehlende Interviewfrage hinauszuwachsen.
Dave

Antworten:


28

Die meisten Nicht-Techniker verwenden Excel häufig als Datenbankersatz. Ich denke das ist falsch aber erträglich. Allerdings kann jemand, der angeblich Erfahrung in der Datenanalyse hat, Excel einfach nicht als Hauptwerkzeug verwenden (mit Ausnahme der offensichtlichen Aufgabe, die Daten zum ersten Mal zu betrachten). Das liegt daran, dass Excel nie für diese Art von Analyse gedacht war und es infolgedessen unglaublich einfach ist, Fehler in Excel zu machen (das heißt nicht, dass es nicht unglaublich einfach ist, andere Arten von Fehlern zu machen, wenn Sie andere Tools verwenden, sondern Excel verschärft die Situation noch mehr.)

Um zusammenzufassen, was Excel nicht hat und ein Muss für jede Analyse ist:

  1. Reproduzierbarkeit. Eine Datenanalyse muss reproduzierbar sein.
  2. Versionskontrolle. Gut für die Zusammenarbeit und auch gut für die Reproduzierbarkeit. Verwenden Sie anstelle von xls csv (immer noch sehr komplex und hat viele Randbedingungen, aber csv-Parser sind heutzutage ziemlich gut).
  3. Testen. Wenn Sie keine Tests haben, ist Ihr Code fehlerhaft. Wenn Ihr Code kaputt ist, ist Ihre Analyse schlimmer als nutzlos.
  4. Wartbarkeit.
  5. Richtigkeit. In Excel fehlen unter anderem die numerische Genauigkeit und die genaue Datumsanalyse.

Mehr Ressourcen:

Europäische Zinsgruppe für Spreadsheet-Risiken - Horrorgeschichten

Sie sollten keine Tabellenkalkulation für wichtige Arbeiten verwenden (ich meine es ernst)

Microsoft Excel könnte die gefährlichste Software auf dem Planeten sein

Zerstören Sie Ihre Daten mit Excel mit diesem einen seltsamen Trick!

Excel-Tabellen sind schwer zu finden


Gibt es Tools, die von Profis als vergleichbar, aber besser als Excel akzeptiert werden, um Daten zu betrachten und schnell zu analysieren? Ich bin ein Newbie Data Scientist und benutze hauptsächlich (Postgre) SQL, aber so etwas wie Excel kann schneller funktionieren, wenn Sie nur Dinge ausprobieren.
Sudo

1
Auch muss ich mich beschweren, dass CSV kein Standard ist. Sie müssen wirklich sicherstellen, dass alles, was geöffnet wird, mit dem übereinstimmt, was es produziert. OpenOffice macht es richtig und lässt Sie viele CSV-Optionen auswählen, wenn Sie laden, anstatt etwas über das Format anzunehmen.
Sudo

@sudo Die Tools hängen von der von Ihnen gewählten Programmiersprache ab, was meistens eine persönliche Präferenz ist. Um nur einige Beispiele zu nennen: R war historisch gesehen eine gute Wahl, Python hat in den letzten Jahren an Popularität für die Datenanalyse gewonnen, Julia ist eine vielversprechende Newcomerin auf diesem Gebiet. Die meisten Programmiersprachen bieten ausgereifte Bibliotheken mit Strukturen (z. B. Datenrahmen), die sich besonders für die Datenanalyse eignen, und alle sind besser als Excel. CSV wurde standardisiert, aber es gibt Details, die unterschiedlich implementiert sind, aber das sollte kein großes Problem in Ihrer täglichen Arbeit sein.
Robert Smith

Ich verwende Python für die Lichtverarbeitung, aber es dient nicht wirklich den Zwecken von Excel. In Excel können Sie beispielsweise Tools wie Autofilter und interaktive Diagramme verwenden. Normalerweise gebe ich meine Daten an eine CSV aus, damit meine Vorgesetzten sie in Excel oder so ansehen können.
Sudo

@sudo Dann willst du Pandas. Pandas bietet eine Vielzahl von Methoden zur Manipulation Ihrer Daten. Dies beinhaltet eine Teilmenge basierend auf Index, Spalten oder Bedingungen, die viel flexibler und leistungsfähiger ist als die automatische Filterung. Dann können Sie das Ergebnis zeichnen ( df.plot()) und Ihre Ausgabe nach csv ( df.to_csv('output.csv')) exportieren . Beachten Sie, dass Datenanalysen in der Regel viel mehr erfordern als nur Filtern und Zeichnen. Daher sollte der Fokus auf der Korrektheit liegen, sodass Sie die Präsentation von der Analyse entkoppeln müssen. Führen Sie Ihre Analyse in Python (oder einer anderen Sprache) durch und geben Sie Ihre Ausgabe in csv frei, wenn Sie dies wünschen.
Robert Smith

15

Verwenden erfahrene Datenwissenschaftler Excel?

Ich habe einige erfahrene Datenwissenschaftler kennengelernt, die Excel verwenden - entweder aufgrund ihrer Präferenz oder aufgrund der Besonderheiten der Geschäfts- und IT-Umgebung ihres Arbeitsplatzes (zum Beispiel verwenden viele Finanzinstitute Excel zumindest als Hauptwerkzeug für die Modellierung). Ich denke jedoch, dass die meisten erfahrenen Datenwissenschaftler die Notwendigkeit erkennen, Tools zu verwenden, die für bestimmte Aufgaben optimal sind, und diesen Ansatz einhalten.

Können Sie einen Mangel an Erfahrung von jemandem vermuten, der hauptsächlich Excel verwendet?

Nein, du kannst nicht. Dies ist die Konsequenz meiner oben erwähnten Überlegungen. Data Science impliziert nicht automatisch Big Data - es gibt viele datenwissenschaftliche Arbeiten, mit denen Excel recht gut umgehen kann. Allerdings ist es etwas beunruhigend, wenn ein Datenwissenschaftler (selbst ein erfahrener) keine (zumindest grundlegenden) Kenntnisse über moderne datenwissenschaftliche Tools hat, einschließlich solcher, die sich auf große Datenmengen konzentrieren. Dies liegt daran, dass das Experimentieren tief in der Natur der Datenwissenschaft verankert ist, da die explorative Datenanalyse ein wesentlicher und sogar ein entscheidender Teil davon ist. Daher könnte eine Person, die nicht den Drang hat, andere Tools in ihrem Bereich zu erforschen, unter den Kandidaten in der Gesamt-Fit-Position für eine Data-Science-Position niedriger rangieren (dies ist natürlich ziemlich verschwommen, da einige Leute sehr schnell lernen neues Material, plus,

Zusammenfassend denke ich, dass die beste Antwort, die ein erfahrener Datenwissenschaftler auf eine Frage zu seinem bevorzugten Tool haben könnte, die folgende ist: Mein bevorzugtes Tool ist das optimale, dh dasjenige, das am besten zu der vorliegenden Aufgabe passt.


5
Ich würde niemals jemanden beschuldigen, Hadoop nicht zu kennen, aber selbst in Situationen mit kleinen Daten habe ich das Gefühl, dass R überlegen ist. Es gibt einfach eine Vielzahl von Dingen, die Sie mit R tun können, die Sie mit Excel nicht tun können. Es geht mich an, dass diese Person das in seinen über 15 Jahren nicht "entdeckt" hat
JHowIX

@JHowIX: Kennen Sie den Begriff "gut genug"? Ich bin auch ein großer Fan von R und würde es vielen Tools vorziehen, Excel eingeschlossen, jeden Tag. Die Tatsache, dass R mehr kann, bedeutet jedoch nicht, dass Excel (oder ein anderes für eine Aufgabe geeignetes Tool) in einem bestimmten Arbeitskontext schlechter ist. Also, während Ihr Anliegen berechtigt ist (ich beziehe mich darauf, indem ich das Wort "störend" verwende), könnte es sein, dass die Person keine Gelegenheit hatte / muss, dies zu tun. Denken Sie daran, dass Sie über die Zeit sprechen, als R existierte, aber vor allem im akademischen Bereich populär war und die Datenwissenschaft (als Datenanalyse oder Ähnliches bezeichnet) nicht so aktuell war wie heute.
Aleksandr Blekh

13

Ich denke, die meisten Leute antworten, ohne gute Excel-Kenntnisse zu haben. Excel (seit 2010) verfügt über eine speicherinterne [Mehrtabellen] -Datenbank namens Power Pivot (die die Eingabe von CSV / Datenbanken usw. ermöglicht), mit der Millionen von Zeilen gespeichert werden können (es muss nicht in eine Tabelle geladen werden). . Es hat auch ein ETL-Tool namens Power-Abfrage, mit dem Sie die Daten aus einer Vielzahl von Quellen (einschließlich Hadoop) lesen können. Und es hat ein Visualisierungstool (Power View & Power Map). Eine Menge von Data Science führt Aggregations- und Top-n-Analysen durch, bei denen sich Power Pivot auszeichnet. Hinzu kommt der interaktive Charakter dieser Tools - jeder Benutzer kann einfach eine Dimension ziehen und ablegen, um die Ergebnisse aufzuteilen, und ich hoffe, Sie können die Vorteile erkennen. Also ja, Sie können nicht maschinelles Lernen tun,


Interessant. Ich bin an die langsamen und buggy Sachen gewöhnt, die Excel 1998-2008 ist. Ich muss die neueren ausprobieren.
sudo

Ich wünschte, ich könnte die Antwort von seanv507 millionenfach unterstützen. Die meisten Antworten hier zeigen, dass sich viele Leute nicht bewusst sind, wie leistungsfähig die neueren Versionen von Excel sind. Beachten Sie, dass Sie bei Verwendung der neuen Datenanalysetools (z. B. Power Query, Power Pivot, DAX) nicht mehr auf 1, 048, 576
Datenzeilen

Menschen ohne betriebswirtschaftlichen Hintergrund arbeiten nicht mit Excel. Zeitraum. Und wenn man bedenkt, dass Wirtschaftsabsolventen normalerweise nicht in die Datenwissenschaft einsteigen, kann man die Unwissenheit verstehen.
NoName

5

In seinem Buch Data Smart löst John Foreman gängige datenwissenschaftliche Probleme (Clustering, naive Bayes, Ensemble-Methoden, ...) mithilfe von Excel. In der Tat ist es immer gut, etwas über Python oder R zu wissen, aber Excel kann den größten Teil der Arbeit noch erledigen!


2
Eigentlich war ich selbst ziemlich überrascht, als ich das Buch las, dass man mit Excel so viel anfangen kann. Und dass darin evolutionäre und andere nichtlineare Löser eingebaut waren! Ein netter Vorteil von Excel ist, dass Ihre Arbeit, insbesondere wenn Sie sich mit reproduzierbarem Code beschäftigen, für mehr Personen als R- oder Python-Code zugänglich ist.
Victor Ma

5

Ich bin überrascht, wie viele Menschen eher an der Coolness des Berufs als an der eigentlichen zu erledigenden Arbeit interessiert sind. Excel ist ein hervorragendes Tool, mit kostenlosem Powerpivot und Powerquery kann es so viel. (Diese sind unter OS X nicht verfügbar.) Und wenn Sie VBA kennen, können Sie einige nette Sachen machen. Wenn Sie zusätzlich zu Ihrem Wissen über Python noch weitere Kenntnisse hinzufügen, können Sie die ersten Schritte der Datenextraktion und -bearbeitung mit Python kombinieren und dann Excel verwenden, insbesondere wenn Sie eine visuelle Person sind. Mit Excel können Sie aggregierte Daten wirklich überprüfen, bevor Sie sie in weitere Prozesse einspeisen oder visualisieren. Es ist ein Muss Werkzeug.


4

Excel lässt nur sehr kleine Daten zu und verfügt über nichts, was für maschinelles Lernen oder auch nur für das Plotten ausreichend nützlich und flexibel ist. Alles, was ich in Excel tun würde, ist, auf eine Teilmenge der Daten zu starren, um einen ersten Blick auf die Werte zu werfen und sicherzustellen, dass ich nichts verpasse, was mit dem Auge sichtbar ist.

Wenn sein Lieblingswerkzeug also Excel ist, könnte dies darauf hindeuten, dass er sich selten mit maschinellem Lernen, Statistiken, größeren Datenmengen oder fortgeschrittenem Plotten befasst. Jemand wie diesen würde ich keinen Data Scientist nennen. Natürlich spielen Titel keine Rolle und es hängt sehr von Ihren Anforderungen ab.

Machen Sie auf keinen Fall ein Urteil anhand von Erfahrungsberichten oder Lebensläufen. Ich habe Lebensläufe gesehen und die Menschen dahinter gekannt.

Geh nicht davon aus Teste ihn! Sie sollten gut genug sein, um einen Test einzurichten. Es hat sich gezeigt, dass Interviews allein für die Feststellung von Fähigkeiten nahezu nutzlos sind (sie zeigen nur Persönlichkeit). Richten Sie einen sehr einfachen beaufsichtigten Lerntest ein und lassen Sie ihn jedes gewünschte Werkzeug verwenden.

Und wenn Sie zuerst Leute in einem Interview untersuchen möchten, fragen Sie ihn nach sehr grundlegenden, aber wichtigen Erkenntnissen über Statistik oder maschinelles Lernen. Das weiß jeder Ihrer derzeitigen Mitarbeiter.


2

Lassen Sie mich zunächst klarstellen, dass ich meine Reise in die Datenwissenschaft vom Standpunkt eines Programmierers und Datenbankentwicklers aus beginne. Ich bin weder ein 10-jähriger Experte für Datenwissenschaften noch ein statistischer Gott. Ich arbeite jedoch als Data Scientist und mit großen Datenmengen für ein Unternehmen, das mit relativ großen Kunden weltweit zusammenarbeitet.

Nach meiner Erfahrung verwenden Data Scientist alle Tools, die sie zur Erledigung ihrer Aufgaben benötigen. Excel, R, SAS, Python und mehr sind alles Werkzeuge in einer Toolbox für gute Datenwissenschaftler. Die Besten können eine Vielzahl von Tools verwenden, um Daten zu analysieren und zu analysieren.

Wenn Sie also feststellen, dass Sie R mit Python vergleichen, machen Sie wahrscheinlich alles falsch in der Welt der Datenwissenschaft. Gute Datenwissenschaftler verwenden beides, wenn es sinnvoll ist, eines übereinander zu verwenden. Dies gilt auch für Excel.

Ich denke, dass es ziemlich schwierig ist, jemanden zu finden, der Erfahrung in so vielen verschiedenen Werkzeugen und Sprachen hat, während er in allem großartig war. Ich denke auch, dass es schwierig sein wird, einen Datenwissenschaftler zu finden, der nicht nur komplexe Algorithmen programmieren kann, sondern auch weiß, wie man sie vom statistischen Standpunkt aus verwendet.

Die meisten Datenwissenschaftler, mit denen ich zusammengearbeitet habe, haben ungefähr zwei Geschmacksrichtungen. Diejenigen, die programmieren können und die, die nicht können. Ich arbeite selten mit Datenwissenschaftlern zusammen, die Daten in Python abrufen, sie mit Pandas bearbeiten, ein Modell an die Daten in R anpassen und sie dann Ende der Woche dem Management vorlegen können.

Ich meine, ich weiß, dass sie existieren. Ich habe viele Data Science-Blogs von Leuten gelesen, die Web-Scrapper entwickelt, in Hadoop gepusht, in Python wiederhergestellt, komplexe Dinge programmiert und zum Booten in R ausgeführt haben. Sie existieren. Sie sind da draußen. Ich habe einfach nicht zu viele getroffen, die all das können. Vielleicht ist es aber nur meine Gegend?

Heißt das also, sich nur auf eine Sache zu spezialisieren, die schlecht ist? Viele meiner Freunde sind auf nur eine Hauptsprache spezialisiert und töten sie. Ich kenne viele Daten-Leute, die nur R kennen und es töten. Ich kenne auch viele Leute, die Excel nur zum Analysieren von Daten verwenden, da dies das einzige ist, was ein Nicht-Datenwissenschaftler öffnen und verwenden kann (insbesondere in B2B-Unternehmen). Die Frage, die Sie wirklich beantworten müssen, ist, ob dies die EINE ist, die Sie für diese Position benötigen. Und vor allem, können sie neue Dinge lernen?

PS

Data Science beschränkt sich nicht nur auf "BIG DATA" oder NoSQL.


Hallo Glen, danke für deine Kommentare. Schauen Sie sich den folgenden Link an. Es ist von Swami Chandrasekaran, der das Watson-Team bei IBM leitete, also meiner Meinung nach ein ziemlich erfahrener Datenwissenschaftler. Nach "Fundamentals" und "Statistics" hat er die Programmierung als drittes Element, das ein Datenwissenschaftler wissen muss. Nach seiner Roadmap sind Sie, wenn Sie erst einmal programmieren können, zu 15% ein Data Scientist. Auf dieser Grundlage kann ich der Aussage, dass echte Datenwissenschaftler einen "nicht programmierbaren" Charakter haben, ein wenig widersprechen. nirvacana.com/thoughts/becoming-a-data-scientist
JHowIX

Nun, ich sage das nur aus Erfahrung. Die meisten statistischen und datenwissenschaftlichen Kurse decken nicht einmal das Programmieren ab, was Sie für die gängigen statistischen Programme benötigen. Aus diesem Grund sind die meisten Leute, denen ich in der Statistikwelt begegne, nicht gut im Programmieren. Es ist wie ein nachträglicher Gedanke, wenn sie in die reale Welt eintreten und erkennen, dass es hilft.
Glen Swan

1

Excel kann ein hervorragendes Tool für die explorative Datenanalyse sein. Es hängt wirklich von Ihren Bedürfnissen ab und hat natürlich seine Grenzen wie jedes andere Tool, aber Excel verdient definitiv einen Platz in der Ruhmeshalle der Data Sciences.

Es sei daran erinnert, dass die meisten Benutzer in der Praxis ohnehin einen stark reduzierten Datensatz untersuchen (der aus einer SQL-Abfrage erstellt wurde).

Excel ist leistungsstark zum Durchsuchen von Daten, wenn Sie das "table" -Objekt in Kombination mit Pivot-Tabellen verwenden. Die Visualisierung ist mit maximal 1-2 Klicks möglich, und viele Excel-Diagramme in Powerpoint sehen großartig aus, es sei denn, Sie möchten etwas sehr Maßgeschneidertes erstellen, z wissenschaftlicher Computerkontext. Die interaktive Natur bedeutet, dass Sie schnell erkunden können.

Der Vorteil des "table" -Objekts besteht darin, dass sich alle Pivot-Tabellen bei der weiteren Transformation der Daten in Excel an die Variable erinnern, damit Sie neue Verteilungen untersuchen können.

Wo Excel schwach ist, ist, dass die Formelliste möglicherweise einschränkend ist, zum Beispiel ist eine SQL-case-Anweisung oder eine Python-Anweisung viel flexibler als eine endlose Kette von if-Funktionen.

Es hängt wirklich von Ihren Bedürfnissen ab, aber Excel verdient definitiv einen Platz in der Data Science Hall of Fame.

Es ist eine interessante Anekdote, dass das Team, das am Facebook-Newsfeed-Algorithmus arbeitet, regelmäßig mit Excel und vielen Tabellen spielt.


0

Ich unterrichte einen Business Analytics-Kurs mit SQL und Excel. Ich unterrichte an einer Business School, damit meine Schüler nicht die technisch besten sind, weshalb ich so etwas wie R, Pandas oder Weka nicht verwendet habe. Abgesehen davon ist Excel ein leistungsfähiges Tool, das für einige Datenanalysen verwendet werden kann. Der größte Teil dieser Leistung wird durch die Möglichkeit erzielt, mithilfe des Data Mining-Add-Ins als Front-End für SQL Server Analysis Services (eine Komponente in SQL Server für die Datenanalyse) zu fungieren.

Mit SSAS können Sie Entscheidungsbäume erstellen, lineare und logistische Regressionen durchführen und sogar Bayes-Netze oder neuronale Netze erstellen. Ich habe festgestellt, dass die Verwendung von Excel als Front-End einen weniger bedrohlichen Ansatz für diese Art von Analysen darstellt, da alle zuvor Excel verwendet haben. Die Verwendung von SSAS ohne Excel erfolgt über eine spezielle Version von Visual Studio, und dies ist nicht das benutzerfreundlichste Tool auf dem Markt. Wenn Sie es mit einigen anderen Excel-Tools wie Power Query und Power Pivot kombinieren, können Sie eine ziemlich komplexe Datenanalyse durchführen.

Vollständige Offenlegung, ich werde es wahrscheinlich nicht mehr verwenden, wenn ich im nächsten Jahr die neue Version des Kurses unterrichte (wir teilen es in zwei Kurse auf, damit man sich stärker auf die Datenanalyse konzentrieren kann). Das liegt aber nur daran, dass die Universität in der Lage war, genügend Lizenzen für Alteryx zu erhalten, das noch einfacher zu verwenden und leistungsfähiger ist, aber 4 bis 85.000 USD / Benutzer / Jahr kostet, wenn Sie es nicht kostenlos bekommen können. Sagen Sie, was Sie über Excel wollen, aber es übertrifft diesen Preis.


0

Excel kann ein hervorragendes Werkzeug sein. Sicher, je nachdem, was Sie tun, passt es vielleicht nicht zur Rechnung, aber wenn es so ist, wäre es fast dumm, es abzulehnen. Während es eine Weile dauert, Ihre Pipeline einzurichten, können Sie in Excel ziemlich schnell loslegen: Eingebaute Benutzeroberfläche, einfache Erweiterbarkeit über VBA, auch mit Python (z . B. https://www.xlwings.org ). Es ist vielleicht nicht ideal, wenn es um Versionskontrolle geht, aber es gibt Möglichkeiten, wie es mit Git funktioniert (z . B. https://www.xltrail.com/blog/auto-export-vba-commit-hook ).


-2

Diese Person arbeitet mit 'Big Data' und verwendet in erster Linie Excel? Ernst?!?! Excel verarbeitet nur bis zu 1, 048, 576 Datenzeilen in einer einzelnen Tabelle. Für darüber hinausgehende Datensätze wird ein Plugin benötigt. Auch Pivot-Tabellen in Excel unterliegen strengen Einschränkungen hinsichtlich der Analyse, die mit ihnen durchgeführt werden kann.

Welche Arten von Datenanalyse-Aufgaben müssten in dem Job ausgeführt werden, für den Sie einstellen?

Ich schlage vor, dass Sie Interviews durchführen, die Tests der Art von Aufgaben enthalten, die in dem betreffenden Job erledigt werden müssen. Ohne die Vertraulichkeit, die Privatsphäre oder den Datenschutz zu verletzen, sollte die im Rahmen des Interviews festgelegte Programmier- oder Datenanalyse-Aufgabe eine (pseudonymisierte) Teilmenge eines Datensatzes enthalten, der für die zu interviewende Stelle relevant ist. Andernfalls werden Sie möglicherweise jemanden einstellen, der in einem gesprächsbasierten Interview artikuliert ist, der aber nicht wirklich in der Ausführung des eigentlichen Auftrags kompetent ist.


Niemand sagte "Big Data". Sie sagten "Data Scientist". Nicht alle Daten sind Big Data. Ich habe mit erfahrenen Datenwissenschaftlern zusammengearbeitet, die in einem Projekt R, Python, SQL und Excel verwendet haben. Nicht alle Datenanalysen sind programmatisch oder skriptgesteuert. Wie an anderer Stelle gesagt, vage Berufsspezifikation => verschiedene Arten von Datenwissenschaftlern.
smci
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.