Ich bin ein R
Sprachprogrammierer. Ich gehöre auch zu der Gruppe von Leuten, die als Data Scientists gelten, aber aus anderen akademischen Disziplinen als CS stammen.
Dies funktioniert in meiner Rolle als Data Scientist sehr gut. Als ich meine Karriere in R
anderen Skriptsprachen / Web-Sprachen begann und nur Grundkenntnisse in diesen hatte, fühlte ich mich in zwei Schlüsselbereichen etwas unzureichend:
- Mangel an soliden Kenntnissen der Programmiertheorie.
- Der Mangel an einem wettbewerbsfähigen Niveau von Fähigkeiten in schnellen und verbreiteten Sprachen wie
C
,C++
undJava
, die verwendet werden, um die Geschwindigkeit der Pipeline und Big Data Berechnungen zu erhöhen sowie DS / Daten Produkte zu schaffen , die leichter zu schnell entwickelt werden können Back-End-Skripte oder eigenständige Anwendungen.
Die Lösung ist natürlich einfach - lernen Sie etwas über das Programmieren, was ich getan habe, indem ich mich in einigen Klassen eingeschrieben habe (derzeit C-Programmierung).
Nun, da ich mich jedoch mit den Problemen 1 und 2 befasse, frage ich mich: " Wie lebensfähig sind Sprachen wie C
und C++
für Data Science? ".
Zum Beispiel kann ich Daten sehr schnell verschieben und problemlos mit Benutzern interagieren, aber was ist mit fortgeschrittener Regression, maschinellem Lernen, Text Mining und anderen fortgeschrittenen statistischen Operationen?
Damit. kann C
die Arbeit erledigen - welche Tools stehen für fortgeschrittene Statistik, ML, AI und andere Bereiche der Datenwissenschaft zur Verfügung? Oder muss ich den größten Teil der Effizienz verlieren, die beim Programmieren C
durch Aufrufen von R
Skripten oder anderen Sprachen erzielt wird?
Die beste Ressource , die ich bisher in C gefunden habe , ist eine Bibliothek namens Shark , die gibt C
/ C++
die Fähigkeit , Support Vector Machines zu verwenden, die lineare Regression (nicht nicht-lineare und andere erweiterte Regression wie multinomial Probit, usw.) und eine Auswahlliste von anderen (großartige, aber) statistische Funktionen.