Drew Conway hat das Data Science Venn-Diagramm veröffentlicht , dem ich von Herzen zustimme:
Einerseits sollte man seinen Beitrag wirklich lesen. Andererseits kann ich meine eigene Erfahrung anbieten: Meine Fachkompetenz (die ich als Begriff besser mag als "Substantive Expertise", weil Sie wirklich auch "Substantive Expertise" in Mathe / Statistik und Hacking haben sollten) ist in der Einzelhandel, meine Mathematik / Statistiken sind Prognosen und Inferenzstatistiken, und meine Hacking-Fähigkeiten liegen in R.
Von diesem Standpunkt aus kann ich mit Einzelhändlern sprechen und sie verstehen, und jemand, der über keine ausreichenden Kenntnisse in diesem Bereich verfügt, muss sich in einem Projekt mit Einzelhändlern einer steilen Lernkurve stellen. Als Nebenjob mache ich Statistiken in Psychologie, und dort ist es genau das gleiche. Und selbst mit einigem Wissen über den Teil Hacking / Mathe / Statistik im Diagramm würde es mir schwer fallen, mich auf dem Gebiet der Kreditwürdigkeitsprüfung oder einem anderen neuen Fachgebiet z.
Sobald Sie eine bestimmte Menge an Mathe- / Statistik- und Hacking-Kenntnissen haben, ist es viel besser, eine Grundausbildung in einem oder mehreren Fächern zu erwerben, als noch eine weitere Programmiersprache zu Ihren Hacking-Kenntnissen hinzuzufügen oder noch nichtEin weiterer Algorithmus für maschinelles Lernen für Ihr Mathematik- / Statistik-Portfolio. Schließlich könnten Sie, sobald Sie eine solide Mathematik- / Statistik- / Hacking-Grundlage haben, in relativ kurzer Zeit solche neuen Tools aus dem Internet oder aus Lehrbüchern lernen. Aber die Fachkenntnisse auf der anderen Seite werden Sie wahrscheinlich nicht von Grund auf lernen können, wenn Sie bei Null beginnen. Die Kunden werden eher mit einem Datenwissenschaftler A zusammenarbeiten, der ihr Fachgebiet versteht, als mit einem anderen Datenwissenschaftler B, der zuerst die Grundlagen erlernen muss - auch wenn B in Mathe / Statistik / Hacking besser ist.
All dies bedeutet natürlich auch, dass Sie in keinem der drei Bereiche Experte werden. Aber das ist in Ordnung, denn Sie sind Datenwissenschaftler, kein Programmierer, Statistiker oder Fachexperte. Es wird immer Leute in den drei getrennten Kreisen geben, von denen Sie lernen können. Welches ist ein Teil dessen, was ich an Data Science mag.
EDIT: Einige Zeit später möchte ich diesen Beitrag mit einer neuen Version des Diagramms aktualisieren. Ich denke immer noch, dass Hacking Skills, Math & Statistics Knowledge und Substantive Expertise (abgekürzt als "Programming", "Statistics" und "Business" für die Lesbarkeit) wichtig sind ... aber ich denke, dass die Rolle der Kommunikation auch wichtig ist. Alle Erkenntnisse, die Sie durch die Nutzung Ihrer Hacking-, Statistik- und Geschäftskenntnisse gewinnen, werden keinen Unterschied machen, es sei denn, Sie können sie an Personen weitergeben, die möglicherweise nicht über diese einzigartige Wissensmischung verfügen. Möglicherweise müssen Sie Ihre statistischen Erkenntnisse einem Manager erläutern, der überzeugt sein muss, Geld auszugeben oder Prozesse zu ändern. Oder an einen Programmierer, der nicht statistisch denkt.
Hier ist also das neue Data Science-Venn-Diagramm, das auch die Kommunikation als einen unverzichtbaren Bestandteil enthält. Ich habe die Bereiche so beschriftet, dass sie ein Maximum an Flammen gewährleisten und gleichzeitig leicht zu merken sind.
Kommentar entfernt.
R-Code:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()