这些术语含糊不清,因为它们是新的
在“数据科学”领域求职的过程中,我认为这里发生了两件事。首先,工作是新的,各种术语没有固定的定义,所以术语与职位描述的匹配没有普遍共识。将此与“网络开发人员”或“后端开发人员”进行比较。这是两个相似的工作,有相当好的共识和不同的描述。
其次,很多发布职位和初次面试的人并不十分清楚他们在招聘什么。对于雇用招聘人员为他们寻找申请人的中小型公司来说尤其如此。正是这些中介在 CareerBuilder 或任何论坛上发布了职位描述。这并不是说他们中的许多人不了解他们的东西,他们中的许多人对他们所代表的公司和工作场所的要求非常了解。但是,如果没有明确定义的术语来描述不同的具体工作,结果往往是模糊的职称。
该领域分为三个一般部门
根据我的经验,数据科学的“工作空间”分为三个一般部门。
首先是使数据科学成为可能的数学和计算技术的发展。这包括对新机器学习方法的统计研究、这些方法的实施以及构建计算基础设施以在现实世界中使用这些方法。这是离客户最远的部门,也是最小的部门。大部分工作是由大公司(谷歌、Facebook 等)的学者或研究人员完成的。这适用于开发 Google 的 TensorFlow、IBM 的 SPSS 神经网络或任何下一个大型图形数据库。
第二个部门是使用底层工具来创建特定于应用程序的包,以执行需要完成的任何数据分析。人们被雇用使用 Python 或 R 或其他任何东西来在某些数据集上构建分析能力。根据我的经验,很多工作都涉及到“数据洗衣”,将任何形式的原始数据转化为可用的东西。这项工作的另一大块是数据库。弄清楚如何以可以在您需要的任何时间轴上访问数据的方式存储数据。这项工作与其说是使用工具,不如说是使用现有的数据库、统计数据和图形分析库来产生一些结果。
第三个部门是根据新组织的和可访问的数据进行分析。这是最面向客户的一面,具体取决于您的组织。您必须生成业务领导者可以用来做出决策的分析。这将是三个部门中技术最少的;在这一点上,许多工作是第二和第三部门的混合体,因为数据科学还处于起步阶段。但在未来,我强烈怀疑这两个工作之间的划分会更加清晰,人们赢得第二份工作需要技术、计算机科学或统计学基础教育,而第三份工作只需要通识教育。
一般来说,这三个人都可以将自己描述为“数据科学家”,但只有前两个可以合理地将自己描述为“机器学习工程师”。
结论
目前,您将不得不自己了解每项工作的内容。我目前的工作聘请我担任“分析师”,从事一些机器学习工作。但是当我们开始工作时,很明显公司的数据库是不够的,现在我大概 90% 的时间都花在了数据库上。我的机器学习领域现在只是通过似乎最合适的任何 scikit-learn 软件包快速运行东西,并将 csv 文件拍摄给第三部门的分析师,以便为客户制作 powerpoint 演示文稿。
该领域处于不断变化之中。许多组织正在尝试将数据科学决策添加到他们的流程中,但不清楚这意味着什么。这不是他们的错,很难预测未来,而且新技术的后果从来都不是很清楚。在该领域更加成熟之前,许多工作本身将与用于描述它们的术语一样模糊。