什么是“数据科学”?

数据挖掘 大数据 定义
2021-10-16 02:38:09

近年来,“数据”一词似乎已成为一个广泛使用的术语,没有具体的定义。似乎每个人都在使用这个短语。甚至像我祖父母这样的技术缺陷者也使用这个词,并且似乎理解“数据泄露”之类的词。但我不明白是什么让“数据科学”成为一门新学科。几个世纪以来,数据一直是科学的基础。没有数据,就没有孟德尔、薛定谔等。没有解释和分析数据,就没有科学。

但显然它意味着什么。每个人都在谈论它。那么,当人们使用“大数据”之类的术语时,他们所说的数据到底是什么意思?为什么这本身就成为一门学科呢?另外,如果它是一门新兴学科,我在哪里可以找到更严肃/深入的信息,以便更好地教育自己?

谢谢!

1个回答

我一直被问到这个问题,所以今年早些时候我根据我做过几次的演讲写了一篇文章(什么是数据科学? )。这是要点...

首先,其他人提供的一些数据科学定义:

ClouderaJosh Wills,数据科学家是“比任何软件工程师都更擅长统计,并且比任何统计学家都更擅长软件工程的人”。

一个经常听到的笑话是,“数据科学家”是居住在加利福尼亚的数据分析师。

根据Big Data Borat的说法,数据科学是 Mac 上的统计数据。

Drew Conway著名的数据科学维恩图中,它是黑客技能、数学和统计知识以及实质性专业知识的交集。

这是我在ITProPortal博客上找到的另一个很好的定义:

“数据科学家是了解编程、机器学习、数据挖掘、统计和黑客等领域的人”

以下是我们在Altamira(我现在的雇主)如何定义数据科学:

数据科学图

底部四行是赌注——只是玩游戏的入场费。这些是所有有抱负的数据科学家必须掌握的基础技能。每个数据科学家都必须是称职的程序员他或她还必须扎实掌握数学、统计学和分析方法数据科学和“大数据”齐头并进,因此所有数据科学家都需要熟悉分布式计算的框架。最后,数据科学家必须对他们所经营的领域有基本的了解,以及出色的沟通技巧和用数据讲述好故事的能力。

有了这些基础知识,下一步就是在一个或多个垂直领域培养深厚的专业知识。“数据科学”实际上是从数学、统计学、计算机科学和软件工程等多个学科中获取的一系列相互关联的技术和方法的总称。这些多样化方法的目标是从各种数据中提取可操作的情报,使客户能够做出更好的数据驱动决策没有人可能掌握数据科学的所有方面。这样做需要多生的培训和经验。最好的数据科学家因此是“ T型的”“个人——也就是说,他们拥有数据科学所有领域的广泛知识,以及至少在一个领域的深厚专业知识。因此,最好的数据科学团队将一组具有互补技能的个人聚集在一起,涵盖整个范围