Ich arbeite derzeit als Datenwissenschaftler in einem Einzelhandelsunternehmen (mein erster Job als DS, daher kann diese Frage auf meine mangelnde Erfahrung zurückzuführen sein). Sie haben einen enormen Rückstand an wirklich wichtigen datenwissenschaftlichen Projekten, die sich bei ihrer Umsetzung sehr positiv auswirken würden. Aber.
Daten-Pipelines gibt es im Unternehmen nicht. Sie müssen mir standardmäßig Gigabyte an TXT-Dateien aushändigen, wenn ich Informationen benötige. Stellen Sie sich diese Dateien als tabellarische Protokolle von Transaktionen vor, die in geheimer Notation und Struktur gespeichert sind. In einer einzigen Datenquelle sind keine vollständigen Informationen enthalten, und sie können mir aus "Sicherheitsgründen" keinen Zugriff auf ihre ERP-Datenbank gewähren.
Die anfängliche Datenanalyse für das einfachste Projekt erfordert ein brutales, qualvolles Datenwirrwarr. Über 80% der für ein Projekt aufgewendeten Zeit versuche ich, diese Dateien zu analysieren und Datenquellen zu überqueren , um brauchbare Datensätze zu erstellen. Dies ist kein Problem, fehlende Daten einfach zu handhaben oder vorzuverarbeiten. Es geht um die Arbeit, die erforderlich ist, um Daten zu erstellen, die an erster Stelle behandelt werden können ( lösbar durch dba oder Data Engineering, nicht Data Science? ).
1) Es scheint, dass der Großteil der Arbeit überhaupt nicht mit Datenwissenschaft zu tun hat. Ist das genau?
2) Ich weiß, dass dies kein datengetriebenes Unternehmen mit einer hochrangigen Abteilung für Datentechnik ist, aber ich bin der Meinung, dass für eine nachhaltige Zukunft von datenwissenschaftlichen Projekten ein Mindestmaß an Datenzugriff erforderlich ist . Liege ich falsch?
3) Ist diese Art der Einrichtung für Unternehmen mit ernsthaften datenwissenschaftlichen Anforderungen üblich?