维基百科它说关于数据科学:
图灵奖获得者 Jim Gray 将数据科学想象为科学的“第四范式”(经验、理论、计算和现在的数据驱动),并断言“由于信息技术的影响”和数据泛滥,“关于科学的一切都在发生变化”。 [4][5]
“理论”一词与“基础研究”相关联,我认为这是错误的,因为基础研究也可以是经验性的。然而,与经验相比,“理论”是有意义的:在理论研究中,您试图通过思考问题“简单地”找到解决方案,在经验研究中,您收集有关问题的数据,并使用它来建立关于现实的模型/理论或测试这些模型/理论。
相反,我看不到计算科学应该是什么,因为我相信我可以将计算机用于经验科学(例如使用统计和机器学习模型)或理论科学(例如基于我的假设构建模拟)看看它们是否会产生预期的结果——不涉及数据)。所以我认为计算科学将是对经验科学和/或理论科学的补充,而不是对比范式。
现在,进入“数据驱动的科学”。这应该怎么不同?要么你可以说数据驱动只是经验性的(正如我所说的),所以它不是一个新的范式。或者您可能将其解释为“计算”,那么它甚至不是范式。
我想出的两行论点毕竟是无效的:
- “虽然经验科学使用数据,但数据驱动使用更多数据。” 但是有更多的苹果并不意味着你以前没有苹果。这是定量的,不是定性的。根据定义,范式在性质上是不同的。
- “我们有不同的方法。” 我们确实有新的机器学习方法,我们在统计方面没有,但这并没有改变收集数据并使用它来构建模型的一般范式。
问题:
- 吉姆格雷(据称)对“第四范式”是什么意思?
- 他是否有理由称其为类似于“经验科学”和“理论科学”的新范式?(请论证为什么!)