Mein datenwissenschaftliches Studium begann als Master in Angewandter Statistik. Einer der Kurse befasste sich mit maschinellem Lernen und hatte einen ähnlichen Ansatz wie das, was Sie beschreiben. So kann ich mich ein wenig in Ihre aktuelle Sichtweise einfühlen. Aber genau wie andere Dinge, die Sie vielleicht im Leben gelernt haben, ist die Art und Weise, wie Sie Dinge in einem akademischen Umfeld tun und wie Sie Dinge in einem Geschäftsumfeld tun (dh für einen Kunden), völlig anders. Folgendes habe ich seit meinem ersten Studium gelernt:
1 - Lerne Python
Sicher, es gibt noch andere Tools, die in Ordnung sind (ich habe früher R-Code mit den besten geschrieben), aber in Python liegt die Zukunft. Außerdem skalieren nur sehr wenige Tools so gut wie Python, und das ist wichtig, wenn Sie an wirklich coolen Dingen arbeiten möchten.
2 - Auf die Umsetzung kommt es an
Erraten Sie, was? All diese Dinge, die Sie gerade lernen (Verwirrungsmatrizen, Faktorreduzierung usw.), bedeuten Ihren Kunden nichts. Sie werden Sie nur ansehen und sagen: "Was ist das Produkt? Wann werden Sie etwas auf meinem Telefon bereitstellen? Wo kann ich auf meine Webanwendung klicken?". Ein großer Teil Ihrer Aufgabe wird es sein, all Ihre Arbeit in ein Produkt zu verwandeln, und Sie werden einen Quasi-Software-Entwickler-Hut tragen. Dies ist auch ein weiterer guter Grund, Python zu lernen.
3 - Datenpipelines brauchen Zeit
Ein Großteil Ihrer Arbeit wird sich mit Datenmanipulation befassen und nur sicherstellen, dass die von Ihnen benötigten Datenpipelines vorhanden sind. Sicher, Sie haben eine Datenbank - aber wie werden Sie sie aktualisieren? Welche Vorverarbeitung benötigen Sie? Wo werden Ihre Ergebnisse gespeichert? Sie werden viel Zeit damit verbringen , dieses Zeug herauszufinden. Sie werden Ihre Schulzeit verpassen, als Ihnen Datensätze auf schöne und saubere Weise gegeben wurden :)
4 - Neuronale Netze treten in den Arsch
Sobald Sie einen Bissen von diesem Apfel nehmen, ist es schwer, zurück zu gehen :). Lerne Keras und genieße die Fahrt. Nach einer Weile müssen Sie sich daran erinnern, welche Entscheidungen Bäume sind :)
5 - Die Modellsuche ist jetzt viel einfacher
Um 100% klar zu sein, ist der Ansatz der "Modellsuche", den Sie jetzt durchführen, SEHR wertvolle Erfahrung. Sie sollten auf jeden Fall hart in diesen Klassen arbeiten. Wenn Sie jedoch Zeit haben, schauen Sie sich entweder (1) Data Robot oder (2) Watson Analytics an. Beide Pakete machen im Wesentlichen dasselbe. Sie nehmen Ihren Datensatz und finden das beste Modell dafür. Alle oben beschriebenen Aufgaben sind in Sekundenschnelle für Sie erledigt. Es ist beinahe beängstigend, wie schnell sie sind, und sie helfen Ihnen sehr effektiv dabei, Ihre Arbeit zu reduzieren. Beachten Sie jedoch, dass diese Pakete nur überwachte Daten unterstützen. Sie müssen es immer noch auf die altmodische Weise für unbeaufsichtigte Daten tun (oder einige beschriften und ein neuronales Netzwerk verwenden).
6 - Ich verwende immer noch die Theorie hinter anderen Modellen
Auch wenn ich häufig neuronale Netze benutze, sind die anderen Modelle immer noch nützlich. Sie werden weiterhin lineare Regressions- oder Entscheidungsbäume für grundlegende Probleme verwenden. Es ist auch hilfreich, wenn ich mich entscheide, einige Forschungsarbeiten zu archivx oder was auch immer zu lesen. Also werde ich sie immer noch für mein eigenes Studium und Verständnis verwenden, aber das war es auch schon.
Habe Spaß!