有标准的数据科学认识论吗?

数据挖掘 机器学习 数据挖掘 方法
2022-03-07 09:47:15

实验科学有“科学方法”,数学有“证明”。数据科学中知识生产的标准是什么?

我收集到可以采取几种不同的哲学;其中一些类似于科学方法(引入一个可证伪的模型,看看数据是否合适),另一些看起来更像是大杂烩(引入某种学习机并希望正则化防止过度拟合,并且交叉验证能抓住它如果不)。

(这两者之间存在一些松散的联系,例如可证伪性如何适应 VC 熵和学习率;这在 Vapnik 的《统计学习基础》一书中进行了解释。)

所以,假设我有一些数据,我想从中提取知识。这样做的社区标准是什么?我在哪里可以了解这些标准背后的认识论哲学及其数学表达方式?

1个回答

有趣的问题。

在我看来,理由来自数学和实验科学。

如果您建议一种新算法,您应该陈述您的假设并提供证明,就像在数学中一样。但是,您还应该在真实数据上进行演示,表明您的假设是合理的,并且您的算法可以提供价值。

如果你建议一个模型,你应该根据它在观察中的表现来证明它的合理性,就像在实验科学中一样。无论您是如何得出模型的,这都是正确的。但是,检查模型逻辑本身及其派生方式将有助于获得对它的信心并追踪它需要修改的地方。