我一直被问到这个问题,所以今年早些时候我根据我做过几次的演讲写了一篇文章(什么是数据科学? )。这是要点...
首先,其他人提供的一些数据科学定义:
Cloudera的Josh Wills说,数据科学家是“比任何软件工程师都更擅长统计,并且比任何统计学家都更擅长软件工程的人”。
一个经常听到的笑话是,“数据科学家”是居住在加利福尼亚的数据分析师。
根据Big Data Borat的说法,数据科学是 Mac 上的统计数据。
在Drew Conway著名的数据科学维恩图中,它是黑客技能、数学和统计知识以及实质性专业知识的交集。
这是我在ITProPortal博客上找到的另一个很好的定义:
“数据科学家是了解编程、机器学习、数据挖掘、统计和黑客等领域的人”
以下是我们在Altamira(我现在的雇主)如何定义数据科学:

底部四行是赌注——只是玩游戏的入场费。这些是所有有抱负的数据科学家必须掌握的基础技能。每个数据科学家都必须是称职的程序员。他或她还必须扎实掌握数学、统计学和分析方法。数据科学和“大数据”齐头并进,因此所有数据科学家都需要熟悉分布式计算的框架。最后,数据科学家必须对他们所经营的领域有基本的了解,以及出色的沟通技巧和用数据讲述好故事的能力。
有了这些基础知识,下一步就是在一个或多个垂直领域培养深厚的专业知识。“数据科学”实际上是从数学、统计学、计算机科学和软件工程等多个学科中获取的一系列相互关联的技术和方法的总称。这些多样化方法的目标是从各种数据中提取可操作的情报,使客户能够做出更好的数据驱动决策。没有人可能掌握数据科学的所有方面。这样做需要多生的培训和经验。最好的数据科学家因此是“ T型的”“个人——也就是说,他们拥有数据科学所有领域的广泛知识,以及至少在一个领域的深厚专业知识。因此,最好的数据科学团队将一组具有互补技能的个人聚集在一起,涵盖整个范围。