Wie viel Data Wrangling macht ein Data Scientist?

44

Ich arbeite derzeit als Datenwissenschaftler in einem Einzelhandelsunternehmen (mein erster Job als DS, daher kann diese Frage auf meine mangelnde Erfahrung zurückzuführen sein). Sie haben einen enormen Rückstand an wirklich wichtigen datenwissenschaftlichen Projekten, die sich bei ihrer Umsetzung sehr positiv auswirken würden. Aber.

Daten-Pipelines gibt es im Unternehmen nicht. Sie müssen mir standardmäßig Gigabyte an TXT-Dateien aushändigen, wenn ich Informationen benötige. Stellen Sie sich diese Dateien als tabellarische Protokolle von Transaktionen vor, die in geheimer Notation und Struktur gespeichert sind. In einer einzigen Datenquelle sind keine vollständigen Informationen enthalten, und sie können mir aus "Sicherheitsgründen" keinen Zugriff auf ihre ERP-Datenbank gewähren.

Die anfängliche Datenanalyse für das einfachste Projekt erfordert ein brutales, qualvolles Datenwirrwarr. Über 80% der für ein Projekt aufgewendeten Zeit versuche ich, diese Dateien zu analysieren und Datenquellen zu überqueren , um brauchbare Datensätze zu erstellen. Dies ist kein Problem, fehlende Daten einfach zu handhaben oder vorzuverarbeiten. Es geht um die Arbeit, die erforderlich ist, um Daten zu erstellen, die an erster Stelle behandelt werden können ( lösbar durch dba oder Data Engineering, nicht Data Science? ).

1) Es scheint, dass der Großteil der Arbeit überhaupt nicht mit Datenwissenschaft zu tun hat. Ist das genau?

2) Ich weiß, dass dies kein datengetriebenes Unternehmen mit einer hochrangigen Abteilung für Datentechnik ist, aber ich bin der Meinung, dass für eine nachhaltige Zukunft von datenwissenschaftlichen Projekten ein Mindestmaß an Datenzugriff erforderlich ist . Liege ich falsch?

3) Ist diese Art der Einrichtung für Unternehmen mit ernsthaften datenwissenschaftlichen Anforderungen üblich?

data-wrangling

— Victor Valente
quelle

Haben Sie angegeben, in welchem Format die Informationen angezeigt werden sollen? Und ihnen Anweisungen geben, wie sie dies mit ihrem ERP tun können?

— jonnor

@jonnor Natürlich. Ich arbeite jetzt seit fast zwei Jahren hier und seit dem ersten Tag habe ich erklärt, wie wir eine bessere Plattform für den Datenzugriff aufbauen können. Es gibt jedoch starken Widerstand dagegen, das zu ändern, was das Unternehmen seit 30 Jahren tut.

— Victor Valente

13

Beginnen Sie mit der Erfassung Ihrer Stunden und rechnen Sie sie in Kosten um, die sich daraus ergeben, wie viel Zeit sie für die Konvertierung des TXT in ein verwendbares Format verschwenden. Ich wette, wenn sie einen Dollar haben, können sie es schaffen.

— Nelson

Wenn es Ihre Zeit belastet, können Sie es auslagern.

— Sarkom

Ich finde es verwirrend, dass ein Unternehmen einen Data Scientist anstellt und sich dennoch Änderungen widersetzt. Sie sollten ihnen die Menge an verschwendeter Zeit und die Gefahr zeigen, Daten in langen TXT-Dateien ohne echte Sicherheit zu speichern

— Pedro Henrique Monforte

27

Es scheint, dass der Großteil der Arbeit überhaupt nicht mit Datenwissenschaft zu tun hat. Ist das genau?

Ja
Ich weiß, dass dies kein datengetriebenes Unternehmen mit einer hochrangigen Abteilung für Datentechnik ist, aber ich bin der Meinung, dass für Data Science ein Mindestmaß an Datenzugriff erforderlich ist. Liege ich falsch?

Du liegst nicht falsch, aber das sind die Realitäten des wirklichen Lebens.
Ist diese Art der Einrichtung für ein Unternehmen mit ernsthaften datenwissenschaftlichen Anforderungen üblich?

Ja

Aus technischer Sicht müssen Sie sich mit ETL-Lösungen befassen, die Ihnen das Leben erleichtern können. Manchmal kann ein Tool zum Lesen bestimmter Daten viel schneller sein als ein anderes. Zum Beispiel ist Rs readxl um Größenordnungen schneller als Pythons Pandas beim Lesen von xlsx-Dateien; Sie können R verwenden, um die Dateien zu importieren und sie dann in einem Python-freundlichen Format (Parkett, SQL usw.) zu speichern. Ich weiß, dass Sie nicht an XLSX-Dateien arbeiten und ich habe keine Ahnung, ob Sie Python verwenden - es war nur ein Beispiel.

Aus praktischer Sicht zwei Dinge:

Verstehen Sie zunächst, was technisch möglich ist. In vielen Fällen handelt es sich bei den Personen, die Ihnen Bescheid geben, um IT-Analphabeten, die sich über geschäftliche oder Compliance-Aspekte Gedanken machen, aber vom IT-Standpunkt aus keine Vorstellung davon haben, was machbar ist und was nicht. Versuchen Sie, mit den Datenbankadministratoren oder mit demjenigen, der die Dateninfrastruktur verwaltet, zu sprechen. Verstehe, was technisch möglich ist. Dann erst versuchen, einen Kompromiss zu finden. ZB geben sie dir keinen Zugang zu ihrem System, aber ich nehme an, dass sich dahinter eine Datenbank befindet? Vielleicht können sie die Daten in andere Formate extrahieren? Vielleicht können sie die SQL-Anweisungen extrahieren, die die Datentypen usw. definieren.
Geschäftsleute sind eher bereit, Ihnen zu helfen, wenn Sie den Fall vertreten können, dass dies in IHREM Interesse liegt. Wenn sie nicht einmal an das glauben, was Sie tun, dann haben Sie Pech ...

— PythonGuest
quelle

2

Hervorragender Punkt, um eine ETL-Lösung zu finden / zu bauen. Sie müssen nur noch Folgendes hinzufügen: Wählen Sie ein Setup aus, mit dem Sie vertraut sind und das sich leicht lesen und debuggen lässt. In den frühen Phasen der Automatisierung von Aufgaben ist dies noch wichtiger als die Suche nach dem schnellsten Datenschlürftool. Wenn es sich um Text handelt, wird es wahrscheinlich über Nacht ausgeführt, und Ihre Beherrschung eines Tools / Frameworks / einer Sprache kann den Unterschied zwischen dem Aufwecken auf gute Daten oder etwas, das Sie neu starten müssen, ausmachen. Nur eine einzige Überarbeitung kann die Effizienzvorteile zunichte machen. Es ist besser, mit weniger Fehlern stabil zu sein, als schnell zu stolpern.

— Jason

2

Wahr. Aber auch nicht überoptimieren. Wählen Sie Ihre Prioritäten mit Bedacht aus. Wenn der Import der Daten einmalig ist, sollten Sie nicht tagelang nach Möglichkeiten suchen, wie Sie die Importzeit von 2 Stunden auf 30 Minuten reduzieren können. Etc.

— PythonGuest

39

Dies ist eine Situation, die viele Blogs, Unternehmen und Zeitungen in vielen Fällen als etwas Reales anerkennen.

In diesem Artikel Data Wrangling for Big Data: Herausforderungen und Chancen wird ein Zitat darüber veröffentlicht

Datenwissenschaftler verbringen 50 bis 80 Prozent ihrer Zeit

Sammeln und Aufbereiten von ungebührlichen digitalen Daten.

Sie können auch die Quelle dieses Zitats in diesem Artikel aus der New York Times lesen. Für Big-Data-Wissenschaftler ist „Hausmeisterarbeit“ der Schlüssel zum Verständnis

Leider ist die reale Welt nicht wie Kaggle. Sie erhalten keine CSV- oder Excel-Datei, mit der Sie die Datenexploration nur mit ein wenig Reinigung starten können. Sie müssen die Daten in einem Format finden, das für Ihre Anforderungen nicht geeignet ist.

Sie können die alten Daten so weit wie möglich nutzen und versuchen, die Speicherung neuer Daten in einem Prozess anzupassen, mit dem Sie (oder ein zukünftiger Kollege) leichter arbeiten können.

— Tasos
quelle

Forbes-Artikel behauptet die gleiche Zahl von 80% .

— Jesse Amano

4

Forbes sollte nirgendwo zusammen mit den Worten "Data Science" erwähnt werden.

— Gented

50-80% basierend auf (Zitat) "Interviews und Expertenschätzungen"

— oW_

3

@gented Meinungsbasierter Kommentar zu einer meinungsbasierten Umfrage in einem meinungsbasierten Artikel, der auf einer meinungsbasierten Antwort auf eine meinungsbasierte Frage basiert. Wer hätte gedacht, dass Sie dies in der "Data Science" SE finden würden?

— Keeta

25

Es scheint, dass der Großteil der Arbeit überhaupt nicht mit Datenwissenschaft zu tun hat. Ist das genau?

Dies ist die Realität eines jeden datenwissenschaftlichen Projekts. Google hat es tatsächlich gemessen und eine Veröffentlichung "Versteckte technische Schulden in maschinellen Lernsystemen" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf veröffentlicht

Das Ergebnis der Arbeit spiegelt auch meine Erfahrung wider. Die meiste Zeit wird für das Erfassen, Bereinigen und Verarbeiten von Daten aufgewendet.

— Schamit Verma
quelle

7

Es scheint, dass der Großteil der Arbeit überhaupt nicht mit Datenwissenschaft zu tun hat. Ist das genau?

Das Verwirren von Daten ist auf jeden Fall in der Stellenbeschreibung von Data Scientist enthalten. Auf einer bestimmten Ebene müssen Sie den Prozess der Datengenerierung verstehen, um Lösungen daraus zu entwickeln. Sicher, jemand, der auf ETL spezialisiert ist, könnte es schneller / effizienter machen, aber Datendumps sind in der realen Welt keine Seltenheit. Wenn Ihnen dieser Aspekt der Datenwissenschaft nicht gefällt, besteht möglicherweise die Möglichkeit, enger mit den IT-Ressourcen zusammenzuarbeiten, um die Daten ordnungsgemäß in einem Warenhaus zu beschaffen, auf das Sie Zugriff haben. Alternativ können Sie einen Job finden, der bereits Daten in einer besseren Reihenfolge enthält.
Ich weiß, dass dies kein datengetriebenes Unternehmen mit einer hochrangigen Abteilung für Datentechnik ist, aber ich bin der Meinung, dass für Data Science ein Mindestmaß an Datenzugriff erforderlich ist. Liege ich falsch?

Ich denke, die Mindeststufe ist TXT-Dateien. Wenn Sie Zugriff auf die Daten über Textdateien haben, sollten Sie Zugriff auf die Daten in der Datenbank haben (mit Vorgesetzten zurückschieben).
Ist diese Art der Einrichtung für ein Unternehmen mit ernsthaften datenwissenschaftlichen Anforderungen üblich?

Ja. Sie sind der Daten-WISSENSCHAFTLER; Sie sind der Experte. Es gehört zu Ihrer Aufgabe, andere über die Ineffizienzen der aktuellen Datenstruktur aufzuklären und darüber, wie Sie helfen können. Daten, die nicht verwendet werden können, helfen niemandem. Sie haben die Möglichkeit, Dinge zu verbessern und die Zukunft des Unternehmens zu gestalten.

— Underminer
quelle

6

Als ein weiterer Anfänger in Data Science kann ich nur hinzufügen, dass ich nicht glaube, dass Ihre Erfahrung einzigartig ist. Mein Team von etwa 10 Mitarbeitern hat anscheinend seit über einem Jahr keine DS mehr durchgeführt (ein kleines Projekt, das 2 der Projekte in Anspruch genommen hat) Mannschaft). Dies ist auf das Versprechen einer effektiven Pipeline zurückzuführen, an der das Team gearbeitet hat, die Daten aber immer noch nicht vollständig liefert. Anscheinend war die Aufbewahrung in der Vergangenheit ziemlich schlecht, und für zukünftige DS-Projekte wird eine MS Azure-Umgebung versprochen.

Also um zu antworten:

1) Ja, absolut genau

2) Nein, Sie haben Recht, aber es ist ein harter Kampf, Zugang zu den gewünschten Daten zu erhalten (falls es diese überhaupt gibt).

3) Ich bin mir sicher, dass es Unternehmen gibt, die besser sind als andere. Wenn Sie es in Ihrer jetzigen Firma nicht aushalten können, 2 Jahre sind eine anständige Zeitspanne, suchen Sie nach besseren Dingen (seien Sie vorsichtig, wie Sie Ihren Wunsch zum Verlassen Ihres jetzigen Jobs ausdrücken, so etwas wie "arbeiten mit mehr Dynamik" team "klingt besser als" meine alte Firma gibt mir keine Daten ").

— Oliver Houston
quelle

5

Wenn Sie dies aus der Perspektive von "Das ist nicht meine Aufgabe, warum sollte ich das tun?" Betrachten , dann ist dies ein ziemlich verbreitetes, allgemeines Problem, das nicht spezifisch für die Datenwissenschaft ist. Letztendlich ist es Ihre Aufgabe, das zu tun, was der Chef Ihnen vorschreibt, aber in der Praxis gibt es wenig Grund, dass der Chef diesbezüglich diktatorisch ist, und normalerweise können Sie sich davon überzeugen. Oder sie werden dir aufrichtig erklären, warum es so sein muss. Was die Autorität anbelangt, gibt es keine offizielle Definition von "Data Science", die besagt, dass Sie nur höchstens X% Datenbereinigung durchführen können. Die Autorität ist derjenige, der Sie bezahlt, solange er das gesetzliche Recht hat, nicht mehr an Sie zu zahlen.

Sie könnten es auch aus einer anderen Perspektive betrachten: Ist dies eine gute Verwendung Ihrer Zeit? Es hört sich so an, als hätten Sie einen Job übernommen, um einige Aufgaben zu erledigen (was Sie mit "Data Science" meinen), aber Sie müssen eine andere Sache erledigen (was Sie "Data Wrangling" nennen). Stellenbeschreibungen und persönliche Gefühle spielen hier keine Rolle, da es etwas Wichtigeres gibt: Das Unternehmen zahlt Ihnen vermutlich eine gute Summe Geld, um etwas zu tun, das nur Sie tun können (Data Science). Aber Sie müssen stattdessen andere Dinge tun, die von anderen Menschen ausgeführt werden können, die eine Kombination aus leistungsfähiger, motivierter oder billiger sind. Wenn die Datenkämpfe von jemandem durchgeführt werden könnten, der die Hälfte Ihres Gehalts verdient, dann wäre es nicht sinnvoll, Ihnen das Doppelte für das Gleiche zu zahlen. Wenn es schneller gehen könnteWenn jemand das gleiche Gehalt bezahlt, gilt die gleiche Logik. Daher ist es eine Verschwendung von Ressourcen (insbesondere Geld), wenn das Unternehmen Ihnen diese Aufgabe überträgt. Wenn Sie es aus dieser Perspektive betrachten, fällt es Ihnen möglicherweise viel leichter, Ihre Vorgesetzten dazu zu bringen, Ihre Seite der Dinge zu sehen.

Am Ende des Tages muss natürlich jemand das Daten-Wrangling machen. Es kann sein, dass Sie der günstigste, schnellste und einfachste Weg sind - die beste Person für diesen Job. In diesem Fall haben Sie Pech. Sie könnten versuchen zu behaupten, dass es nicht Teil Ihres Vertrags ist, aber wie hoch ist die Wahrscheinlichkeit, dass sie naiv genug waren, um etwas Bestimmtes in den Vertrag aufzunehmen?

— Whelibeiren
quelle

3

Vielleicht um es einfach auszudrücken:

Würden Sie dies beim Erstellen von Variablen und Binning-Zahlen blind oder nach der Analyse Ihrer Daten tun?
Wenn Kollegen Ihre Ergebnisse überprüfen und Fragen zu bestimmten Datenbits haben, ist es Ihnen peinlich, diese nicht zu kennen?

Sie müssen mit Ihren Daten arbeiten und sie verstehen - dazu gehören einfache Dinge, die vom Beheben von Inkonsistenzen (NULLs, leere Zeichenfolgen, "-") bis zum Verstehen, wie ein Datenelement von der Erfassung zur Anzeige gelangt, reichen. Die Verarbeitung beinhaltet die Kenntnis der gleichen Informationen, sodass es sich zum Teil um Arbeit handelt, die Sie sowieso hätten erledigen müssen.

Es scheint, als könnte dieses Unternehmen von der Einrichtung einer kostenlosen MySQL-Instanz (oder einer ähnlichen Instanz) für die Speicherung Ihrer Daten profitieren. Es ist auch eine gute Idee, beim Entwerfen des Wrangling-Codes flexibel zu sein. Ich halte es für nützlich, wenn Sie dazu berechtigt sind (und dies in MySQL nicht tun können), einen Zwischendatensatz verarbeiteter Daten zu haben.

Aber Sie richten die Dinge natürlich immer noch von Grund auf neu ein. Dies ist kein einfacher Prozess, aber diese "Lernerfahrung" ist zumindest gut in Ihren Lebenslauf einzutragen.

— David M
quelle

3

1) Es scheint, dass der Großteil der Arbeit überhaupt nicht mit Datenwissenschaft zu tun hat. Ist das genau? Meiner Meinung nach kann sich Data Science nicht aus Data Wrangling zurückziehen. Aber wie Sie sagten, würde sich die Frage stellen, wie viel Prozent des Data Wranglings von einem Data Scientist ausgeführt werden muss. Dies hängt von der Bandbreite des Unternehmens und dem persönlichen Interesse an solchen Arbeiten ab. In meiner Erfahrung von 15 bis 16 Jahren als DS habe ich immer ungefähr 60% bis 70% in Daten-Wrangling-Aktivitäten und maximal 15% in realen Analysen verbracht. Also nimm deinen Anruf entgegen.

2) Ich weiß, dass dies kein datengetriebenes Unternehmen mit einer hochrangigen Abteilung für Datentechnik ist, aber ich bin der Meinung, dass für Data Science ein Mindestmaß an Datenzugriff erforderlich ist. Liege ich falsch? Dies hängt wiederum von den Sicherheitsrichtlinien der Organisation ab. Sie können nicht alles Ihnen überlassen und haben ihre eigenen Sicherheitsprobleme, um die Daten einer Person zu übermitteln, die Zeitarbeitnehmer ist (es tut uns leid, diese Wörter zu verwenden :-()

3) Ist diese Art der Einrichtung für Unternehmen mit ernsthaften datenwissenschaftlichen Anforderungen üblich? Ich bin der Meinung, dass diese Art von Unternehmen die größte Aufmerksamkeit von Data Scientists benötigen, um das Gefühl zu haben, dass datengetriebene Modellierung die Zukunft ist, um ihr Geschäft aufrechtzuerhalten. :-)

Ich habe meine Inputs in das Denken von Unternehmen anstelle von technischen Standpunkten gegeben. :-) Hoffe ich bin klar in meiner Wortwahl.

— user70920
quelle

3

In seinem Vortrag "Big Data ist vier verschiedene Probleme" nennt Turing-Preisträger Michael Stonebraker dieses spezielle Problem als großes Problem ( Video , Folien ).

Er sagt, dass es in diesem Bereich eine Reihe offener Probleme gibt: Aufnahme, Transformation (z. B. Euro / Dollar), Bereinigung (z. B. -99 / Null), Schema-Zuordnung (z. B. Löhne / Gehälter), Unternehmenskonsolidierung (z. B. Mike Stonebraker / Michael) Steinbrecher)

Es gibt eine Reihe von Unternehmen / Produkten, die versuchen, dieses Problem zu lösen, wie Tamr, Alteryx, Trifacta, Paxata und Google Refine, die daran arbeiten, dieses Problem zu lösen.

Bis dieser Bereich ausgereift ist, wird ein Großteil der Arbeit der Datenwissenschaftler in der Tat Daten-Wrangling sein.

— hojusaram
quelle