什么是数据科学家?

机器算法验证 术语 定义 职业生涯
2022-01-23 11:45:12

最近从统计学博士课程毕业后,我在过去几个月开始寻找统计学领域的工作。我考虑过的几乎每家公司都有一个职位名称为“数据科学家”的职位。事实上,感觉看到Statistical ScientistStatistician职称的日子已经一去不复返了。作为一名数据科学家真的取代了作为一名统计学家的身份,或者我想知道的头衔是同义词吗?

好吧,大多数工作资格都感觉像是统计学家头衔下的资格。大多数工作都需要统计学博士学位(),最需要理解实验设计(),线性回归和方差分析(),广义线性模型()和其他多元方法,如 PCA() ,以及统计计算环境中的知识,例如 R 或 SAS ( )。听起来数据科学家实际上只是统计学家的代号。

然而,我参加的每一次面试都是从一个问题开始的:“那么你熟悉机器学习算法吗?” 很多时候,我发现自己不得不尝试回答有关大数据、高性能计算以及神经网络、CART、支持向量机、增强树、无监督模型等主题的问题。当然,我说服自己这些都是统计问题的核心,但在每次采访结束时,我都情不自禁地感到我对数据科学家的了解越来越少。

我是统计学家,但我是数据科学家吗?我致力于科学问题,所以我必须成为一名科学家!我也处理数据,所以我必须是一名数据科学家!根据维基百科,大多数学者都会同意我的观点(https://en.wikipedia.org/wiki/Data_science等)

尽管“数据科学”一词在商业环境中的使用呈爆炸式增长,但许多学者和记者认为数据科学和统计学之间没有区别。

但是,如果我要为数据科学家职位进行所有这些工作面试,为什么感觉他们从来没有问过我统计问题?

在我上次采访之后,我确实希望任何优秀的科学家都能做到,我寻找数据来解决这个问题(嘿,我毕竟是一名数据科学家)。然而,经过无数次谷歌搜索之后,我终于找到了我开始感觉好像我又一次在为数据科学家的定义而苦苦挣扎的地方。我不知道数据科学家到底是什么,因为它有很多定义http://blog.udacity.com/2014/11/data-science-job-skills.html,http://www -01.ibm.com/software/data/infosphere/data-scientist/)但似乎每个人都在告诉我我想成为其中之一:

归根结底,我发现“什么是数据科学家”是一个很难回答的问题。哎呀,他们在 Amstat 花了整整两个月的时间来试图回答这个问题:

好吧,就目前而言,我必须成为一名性感的统计学家才能成为一名数据科学家,但希望经过交叉验证的社区能够提供一些启示并帮助我理解成为一名数据科学家意味着什么。统计学家不都是数据科学家吗?


(编辑/更新)

我想这可能会增加谈话的趣味性。我刚收到一封来自美国统计协会的电子邮件,内容是关于在微软寻找数据科学家的工作。这是链接:数据科学家职位我认为这很有趣,因为该职位的作用涉及我们一直在谈论的许多特定特征,但我认为其中很多都需要非常严格的统计背景,并且与下面发布的许多答案相矛盾。如果链接失效,以下是微软在数据科学家身上寻求的品质:

核心工作要求和技能:

使用分析的业务领域体验

  • 必须具有跨多个相关业务领域的经验,能够利用批判性思维技能来概念化复杂的业务问题及其解决方案,并在大规模现实世界业务数据集中使用高级分析
  • 候选人必须能够独立运行分析项目并帮助我们的内部客户了解调查结果并将其转化为行动以使他们的业务受益。

预测建模

  • 跨行业的预测建模经验
  • 与客户进行业务问题定义和概念建模,以引出重要关系并定义系统范围

统计学/计量经济学

  • 连续和分类数据的探索性数据分析
  • 根据需要对企业和消费者行为、生产成本、要素需求、离散选择和其他技术关系的结构模型方程进行规范和估计
  • 用于分析连续和分类数据的高级统计技术
  • 预测模型的时间序列分析与实现
  • 处理多变量问题的知识和经验
  • 评估模型正确性和进行诊断测试的能力
  • 解释统计数据或经济模型的能力
  • 在构建离散事件仿真和动态仿真模型方面的知识和经验

数据管理

  • 熟悉使用 T-SQL 和分析进行数据转换以及将探索性数据分析技术应用于非常大的真实世界数据集
  • 注意数据完整性,包括数据冗余、数据准确性、异常或极值、数据交互和缺失值。

沟通与协作技巧

  • 独立工作并能够与虚拟项目团队合作,研究创新解决方案以解决具有挑战性的业务问题
  • 与合作伙伴合作,运用批判性思维技能,并推动端到端的分析项目
  • 出色的口头和书面沟通技巧
  • 分析结果的可视化形式可供不同的利益相关者使用

软件包

  • 高级统计/计量经济学软件包:Python、R、JMP、SAS、Eviews、SAS Enterprise Miner
  • 数据探索、可视化和管理:T-SQL、Excel、PowerBI 和等效工具

资格:

  • 要求至少5年以上相关经验
  • 定量领域的研究生学位是可取的。
4个回答

人们对数据科学的定义不同,但我认为共同点是:

  • 如何处理数据的实用知识,
  • 实用的编程技巧。

与它的名字相反,它很少是“科学”。也就是说,在数据科学中,重点是实际结果(如在工程中),而不是证明、数学纯度或学术科学特有的严谨性。事情需要工作,如果它基于学术论文、使用现有库、您自己的代码或即兴破解,几乎没有什么区别。

统计学家不需要程序员(可以使用笔和纸和专用软件)。此外,数据科学中的一些工作调用与统计无关。例如,它是像处理大数据这样的数据工程,即使那里最高级的数学可能是计算平均值(不过,我个人不会将此活动称为“数据科学”)。此外,“数据科学”被大肆宣传,因此与切线相关的工作使用这个标题——以吸引应聘者或提高当前员工的自尊心。

我喜欢Michael Hochster 在 Quora 上的回答中的分类法:

A 型数据科学家:A 用于分析。这种类型主要关注理解数据或以相当静态的方式处理数据。A 型数据科学家与统计学家非常相似(可能是统计学家),但了解所有在统计学课程中未教授的处理数据的实际细节:数据清理、处理超大数据集的方法、可视化,对特定领域的深入了解,关于数据的出色写作等等。

B 型数据科学家:B 代表建筑。B 型数据科学家与 A 型有一些统计背景,但他们也是非常强大的编码人员,可能是训练有素的软件工程师。B 型数据科学家主要对“在生产中”使用数据感兴趣。他们构建与用户交互的模型,通常提供推荐(产品、您可能认识的人、广告、电影、搜索结果)。

从这个意义上说,A 型数据科学家是会编程的统计学家。但是,即使是定量部分,也可能有些人在计算机科学(例如机器学习)方面的背景比常规统计要多,或者是专注于数据可视化的人。

数据科学维恩图(这里:黑客〜编程):

数据科学维恩图

另请参阅替代维恩图(thisthat)。甚至是一条幽默的推文,展示了数据科学家典型技能和活动的平衡列表:

数据科学家应该能够

另请参阅这篇文章:数据科学家 - 统计学家、程序员、顾问和可视化师?.

有一些幽默的定义尚未给出:

数据科学家:在 Mac 上进行统计的人。

我喜欢这个,因为它在炒作多于实质的角度上表现得很好。

数据科学家:居住在旧金山的统计学家。

同样,这一切都是西海岸风味的即兴演奏。

就个人而言,我发现讨论(一般来说,这里)有些无聊和重复。当我在思考我想要做什么时——也许是四分之一世纪或更长时间——我的目标是量化分析师。这仍然是我所做的(并且喜欢!),它主要重叠并涵盖了各种答案中给出的内容。

(注意:引用二有一个较旧的来源,但我现在找不到。)

有许多关于数据科学领域的调查。我喜欢这个,因为它试图分析实际从事数据科学工作的人的个人资料。他们没有使用轶事证据或作者的偏见,而是使用数据科学技术来分析数据科学家的 DNA。

看看数据科学家列出的技能是很有启发性的。请注意,前 20 项技能包含大量 IT 技能。

在当今世界,数据科学家被期望成为多面手;具有扎实的定量基础、编程能力、无限的求知欲和出色的沟通技巧的自学者。

在此处输入图像描述

更新:

我是统计学家,但我是数据科学家吗?我致力于科学问题,所以我必须成为一名科学家!

如果你攻读博士学位,你很可能已经是一名科学家,特别是如果你已经发表过论文和积极的研究。不过,你不需要成为一名科学家才能成为一名数据科学家。有些公司的某些职位,比如沃尔玛(见下文),需要博士学位,但通常数据科学家拥有学士和硕士学位,如下面的示例所示。

从上图中可以看出,您很可能需要具备良好的编程和数据处理技能。此外,数据科学通常与机器学习中某种程度的、通常是“深度”的专业知识相关联。如果您拥有统计学博士学位,您当然可以称自己为数据科学家。然而,顶尖学校的计算机科学博士可能比统计学专业的毕业生更有竞争力,因为他们可能拥有相当强的应用统计学知识,并辅以强大的编程技能——这是雇主追捧的组合。为了对抗它们,您必须获得强大的编程技能,因此在平衡中您将非常有竞争力。有趣的是,通常所有的 stat 博士都会有一些编程经验,但在数据科学领域,要求往往要高得多,

对我来说,拥有统计学博士学位的优势在于“万事通”这句话的其余部分所捕捉到的问题,通常被丢弃:“无所事事”。拥有对每件事都略知一二的人是件好事,但我总是在寻找对某事也有深入了解的人,无论是统计数据还是计算机科学都不是那么重要。重要的是这个人有能力追根究底,当你需要它时,这是一种方便的品质。

该调查还列出了数据科学家的顶级雇主。显然,微软处于领先地位,这让我感到惊讶。如果您想更好地了解他们在寻找什么,在“工作”部分中使用“数据科学”搜索 LinkeIn 会很有帮助。以下是 MS 和沃尔玛在 LinkedIn 中的工作的两段摘录,以说明这一点。

  • 微软数据科学家

    • 5 年以上构建数据处理系统/服务的软件开发经验
    • 计算机科学、EE 或数学学士学位或更高学历,专攻统计学、数据挖掘或机器学习。
    • 在处理大规模数据方面具有出色的编程技能(C#、Java、Python 等)
    • Hadoop或其他大数据处理技术的工作知识
    • 了解分析产品(例如 R、SQL AS、SAS、Mahout 等)是一个加分项。

请注意,了解 stat 包是一个加分项,但需要具备出色的 Java 编程技能。

  • 沃尔玛,数据科学家

    • 计算机科学或类似领域的博士或具有至少 2-5 年相关经验的 MS
    • 良好的 C++ 或 Java 函数编码技能(Java 优先)
    • 必须能够每天花费 10% 的工作日来使用 C++/Java/Hadoop/Hive 编写生产代码
    • 具有 Python 或 Perl 等脚本语言之一的专家级知识。
    • 具有使用大型数据集和分布式计算工具(Map/Reduce、Hadoop、Hive、Spark 等)的经验

在这里,博士是首选,但只有计算机科学专业被命名。使用 Hadoop 或 Spark 进行分布式计算对于统计学家来说可能是一项不寻常的技能,但一些理论物理学家和应用数学家使用类似的工具。

更新 2:

“现在是时候扼杀‘数据科学家’头衔了”托马斯·达文波特说,他在 2012 年与哈佛商业评论共同撰写了一篇题为“数据科学家:21 世纪最性感的工作”的文章,这在某种程度上引发了数据科学家的热潮:

今天说你是——或者想成为,或者想雇佣——一个“数据科学家”意味着什么?不多,不幸的是。

我在某处读过这篇文章(编辑:Josh Will 正在解释他的推文):

数据科学家是一个比任何程序员都更擅长统计并且比任何统计学家都更擅长编程的人。

这个数据科学过程可以简单地解释这句话这个方案的第一眼看起来像“好吧,编程部分在哪里?”,但如果你有大量的数据,你必须能够处理它们。