实验科学有“科学方法”,数学有“证明”。数据科学中知识生产的标准是什么?
我收集到可以采取几种不同的哲学;其中一些类似于科学方法(引入一个可证伪的模型,看看数据是否合适),另一些看起来更像是大杂烩(引入某种学习机并希望正则化防止过度拟合,并且交叉验证能抓住它如果不)。
(这两者之间存在一些松散的联系,例如可证伪性如何适应 VC 熵和学习率;这在 Vapnik 的《统计学习基础》一书中进行了解释。)
所以,假设我有一些数据,我想从中提取知识。这样做的社区标准是什么?我在哪里可以了解这些标准背后的认识论哲学及其数学表达方式?